使用 exo 技术构建 Mac mini AI 推理集群：从架构到实战

使用 exo 技术构建 Mac mini AI 推理集群：从架构到实战 | 极客日志

规格	M4	M4 Pro
CPU	10 核（4P+6E）	12 核（8P+4E）或 14 核
GPU	10 核	16 核或 20 核
统一内存	16/24/32GB	24/48/64GB
内存带宽	120GB/s	273GB/s
Thunderbolt	TB4 (40Gb/s)	TB5 (120Gb/s)
尺寸	5×5×2 英寸	5×5×2 英寸
功耗	最大 155W	最大 155W

 [Mac mini 1] | | Thunderbolt 5 | [Mac mini 2]─┼─[Mac mini 3] | [Mac mini 4]

[Mac mini 1]─┬─[Mac mini 2] │ │ │ │ └───────┼───[Mac mini 3] │ │ └───────────────┴───[Mac mini 4]

Device 1: Layers 1-20 Device 2: Layers 21-40 Device 3: Layers 41-60 Device 4: Layers 61-80

Device 1: W[:, 0:N/4] Device 2: W[:, N/4:N/2] Device 3: W[:, N/2:3N/4] Device 4: W[:, 3N/4:N]

Mac mini 1 ─TB5─ Mac mini 2 │ │ TB5 TB5 │ │ Mac mini 4 ─TB5─ Mac mini 3 │ │ TB5───────────────TB5

system_profiler SPThunderboltDataType # 查看是否显示 RDMA 接口

rdma_ctl enable

# 安装 Homebrew
/bin/bash -c"$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 安装依赖
brew install uv macmon node
# 安装 Rust（需要 nightly）
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
rustup toolchain install nightly

# 克隆仓库
git clone https://github.com/exo-explore/exo
cd exo
# 构建仪表盘
cd dashboard
npm install
npm run build
cd..
# 运行 exo
uv run exo

# 下载 DMG
curl -O https://assets.exolabs.net/EXO-latest.dmg
# 挂载并安装
open EXO-latest.dmg
# 将 EXO.app 拖到 Applications

# 从源码运行
sudo ./tmp/set_rdma_network_config.sh

ifconfig | grep -A5 "rdma" # 应该看到 rdma0, rdma1 等接口

uv run exo

uv run exo

curl http://localhost:52415/state | jq '.nodes'

{"nodes":[{"id":"local","name":"Mac-mini-1","capabilities":{"memory":68719476736,"device":"mps"}},{"id":"QmXxxx...","name":"Mac-mini-2","capabilities":{"memory":68719476736,"device":"mps"}} // ... 其他节点]}

curl http://localhost:52415/models | jq '.models[] | {id, name, size}'

curl "http://localhost:52415/instance/previews?model_id=qwen3-235b" | jq '.previews[]'

{"model_id":"mlx-community/Qwen3-235B-Instruct-8bit","sharding":"Tensor","instance_meta":"MlxRing","memory_delta_by_node":{"local":62914560000,"QmAbc...":62914560000,"QmDef...":62914560000,"QmGhi...":62914560000},"error":null}

# 过滤出无错误的方案
curl "http://localhost:52415/instance/previews?model_id=qwen3-235b" | jq '.previews[] | select(.error == null) | .instance' | head -n1 > instance.json

# 使用预览的方案
curl -X POST http://localhost:52415/instance \
-H 'Content-Type: application/json' \
-d @instance.json

{"message":"Command received.","command_id":"e9d1a8ab-1234-5678-90ab-cdef12345678"}

# 查看所有实例
curl http://localhost:52415/state | jq '.instances'

# 在每个节点查看日志
tail -f ~/.local/share/exo/exo.log # Linux
tail -f ~/Library/Logs/exo/exo.log # macOS

curl -N -X POST http://localhost:52415/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{ "model": "mlx-community/Qwen3-235B-Instruct-8bit", "messages": [ {"role": "system", "content": "You are a helpful AI assistant."}, {"role": "user", "content": "Explain quantum computing in simple terms."} ], "stream": true, "max_tokens": 500, "temperature": 0.7 }'

data: {"choices":[{"delta":{"content":"Quantum"}}]} data: {"choices":[{"delta":{"content":" computing"}}]} ... data: [DONE]

curl -X POST http://localhost:52415/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{ "model": "mlx-community/Qwen3-235B-Instruct-8bit", "messages": [{"role": "user", "content": "Hello!"}], "stream": false }' | jq '.choices[0].message.content'

from openai import OpenAI

# 指向 exo 集群
client = OpenAI(
    base_url="http://localhost:52415/v1",
    api_key="not-needed" # exo 不需要 API key
)
response = client.chat.completions.create(
    model="mlx-community/Qwen3-235B-Instruct-8bit",
    messages=[{"role":"user","content":"Write a haiku about AI clusters"}],
    stream=True
)
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='')

# 测试不同 prompt 长度和生成长度
uv run bench/exo_bench.py \
--model Qwen3-235B-Instruct-8bit \
--pp 128,256,512,1024 \
--tg 128,256,512 \
--max-nodes 4 \
--sharding tensor \
--repeat 3 \
--json-out results.json

cat results.json | jq '.[] | { nodes: .num_nodes, sharding: .sharding, prompt_tps: .prompt_tps, gen_tps: .generation_tps, memory_gb: (.peak_memory / 1073741824 | round) }'

# 安装
brew install macmon
# 实时监控
macmon

GPU: 45% | CPU: 68% | ANE: 12% Mem: 52.3 / 64.0 GB Pwr: 85W | Temp: 65°C

# 查看 RDMA 接口统计
netstat -I rdma0 -w1
# 使用 iftop 监控带宽
sudo iftop -i rdma0

# 使用 MLX 的动态 KV Cache
import mlx.core as mx
# 设置最大 cache 长度
max_cache_len = 4096
# 启用 sliding window
use_sliding_window = True

# 将部分层卸载到 SSD
export MLX_OFFLOAD_LAYERS=20
uv run exo

# 检查 RDMA 配置
ifconfig rdma0 | grep mtu # 增大 MTU（如果支持）
sudo ifconfig rdma0 mtu 9000

# 从 HuggingFace 下载预量化模型
# mlx-community 提供了很多优化版本
curl "http://localhost:52415/models" | grep mlx-community

[Load Balancer]
|
[Coordinator]
/ | \ 
N1 N2 N3 N4

uv run exo --no-worker

frontend exo_frontend
bind *:8080
default_backend exo_nodes
backend exo_nodes
balance roundrobin
option httpchk GET /health
server node1 192.168.1.101:52415 check
server node2 192.168.1.102:52415 check
server node3 192.168.1.103:52415 check
server node4 192.168.1.104:52415 check

# 仅允许内网访问 exo API
sudo /usr/libexec/ApplicationFirewall/socketfilterfw --add /path/to/exo
sudo pfctl -e
# 编辑 /etc/pf.conf
block in all
pass in on en0 from 192.168.1.0/24 to any port 52415

server {
    listen 443 ssl;
    server_name exo.example.com;
    ssl_certificate /path/to/cert.pem;
    ssl_certificate_key /path/to/key.pem;
    location / {
        auth_basic "Restricted";
        auth_basic_user_file /etc/nginx/.htpasswd;
        proxy_pass http://localhost:52415;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
}

# metrics_exporter.py
from prometheus_client import start_http_server, Gauge
import requests
import time

# 定义指标
node_memory = Gauge('exo_node_memory_bytes', 'Memory usage', ['node'])
inference_tps = Gauge('exo_inference_tps', 'Tokens per second')

def collect_metrics():
    state = requests.get('http://localhost:52415/state').json()
    for node in state['nodes']:
        node_memory.labels(node=node['name']).set(node['memory_used'])

if __name__ == '__main__':
    start_http_server(9090)
    while True:
        collect_metrics()
        time.sleep(10)

# promtail-config.yaml
clients:
- url: http://loki:3100/loki/api/v1/push
scrape_configs:
- job_name: exo
  static_configs:
  - targets:
    - localhost
  labels:
    job: exo
    __path__: /Users/*/.local/share/exo/exo.log

# 1. 检查防火墙
sudo pfctl -s rules | grep 52415
# 2. 检查 libp2p 端口
lsof -i :52415
# 3. 验证网络连通性
ping <other-node-ip>
# 4. 检查 namespace 配置
env | grep EXO_LIBP2P_NAMESPACE

# 检查 RDMA 状态
system_profiler SPThunderboltDataType | grep -i rdma
# 检查 macOS 版本
sw_vers | grep ProductVersion
# 必须 >= 15+
# 检查 rdma_ctl
rdma_ctl status

# 查看预期内存使用
curl "http://localhost:52415/instance/previews?model_id=qwen3-235b" | jq '.previews[0].memory_delta_by_node'
# 检查实际可用内存
sysctl hw.memsize

# 运行 benchmark
uv run bench/exo_bench.py \
--model llama-3.2-1b \
--pp 128 --tg 128 --repeat 1
# 检查是否使用 RDMA
curl http://localhost:52415/state | jq '.instances[].meta'
# 应该显示 "MlxRing"（RDMA）而非 "MlxDist"

# exo 主日志
~/Library/Logs/exo/exo.log
# 系统日志（RDMA 相关）
/var/log/system.log
# Thunderbolt 日志
log show --predicate 'subsystem == "com.apple.thunderbolt"' --last 1h

# exo 主日志
~/.local/share/exo/exo.log
# 系统日志
journalctl -u exo -f

export EXO_LOG_LEVEL=DEBUG
uv run exo

curl -N -X POST http://localhost:52415/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{ "model": "mlx-community/Qwen3-235B-Instruct-8bit", "messages": [{"role": "user", "content": "你好"}], "stream": true }'

# 预览方案
curl "http://localhost:52415/instance/previews?model_id=qwen3-235b" | jq '.previews[] | select(.sharding=="Tensor") | .instance' | head -n1 > qwen3_instance.json
# 创建实例
curl -X POST http://localhost:52415/instance \
-H 'Content-Type: application/json' \
-d @qwen3_instance.json

git clone https://github.com/exo-explore/exo
cd exo && uv run exo

# 恢复模式执行
rdma_ctl enable

Mini1 ─── Mini2
│ ╳ │
│ ╱ ╲ │
Mini4 ─── Mini3

维度	Mac mini M4 Pro 集群	NVIDIA H100 集群
硬件成本	$8,000（4 节点）	$150,000+（4 卡）
功耗	600W	2,800W+
噪音	静音（风扇低速）	80+ dB（数据中心）
部署复杂度	低（即插即用）	高（需要机架服务器）
通信延迟	8μs（RDMA over TB5）	2μs（NVLink）
内存带宽	273GB/s/节点	3,350GB/s/卡
推理速度	中等	快
适用场景	中小企业、研究实验室	大规模生产环境

#!/bin/bash
# 启动 exo 集群节点
set -e
echo "Starting exo cluster node..."
# 检查依赖
command -v uv >/dev/null 2>&1 || { echo "uv not installed"; exit 1; }
# 设置环境变量
export EXO_LIBP2P_NAMESPACE="${EXO_LIBP2P_NAMESPACE:-default}"
export EXO_LOG_LEVEL="${EXO_LOG_LEVEL:-INFO}"
# 切换到 exo 目录
cd ~/exo
# 启动 exo（后台运行）
nohup uv run exo > ~/exo.log 2>&1 &
echo $! > ~/exo.pid
echo "exo started with PID $(cat ~/exo.pid)"
echo "Dashboard: http://localhost:52415"
echo "Logs: tail -f ~/exo.log"

#!/bin/bash
# 停止 exo 节点
if [ -f ~/exo.pid ]; then
    PID=$(cat ~/exo.pid)
    kill $PID
    rm ~/exo.pid
    echo "exo stopped (PID $PID)"
else
    echo "exo not running"
fi

# 列出所有模型
curl http://localhost:52415/models | jq -r'.models[] | .id'
# 查看集群状态
curl http://localhost:52415/state | jq '.nodes[] | {name, memory, device}'
# 删除实例
curl -X DELETE http://localhost:52415/instance/<INSTANCE_ID>
# 重新加载实例
curl -X POST http://localhost:52415/instance/reload/<INSTANCE_ID>

使用 exo 技术构建 Mac mini AI 推理集群：从架构到实战

使用 exo 技术构建 Mac mini AI 推理集群：从架构到实战

1. 引言

1.1 背景

1.2 exo 技术简介

1.3 Mac mini M4 硬件优势

2. 架构设计

2.1 集群拓扑

2.1.1 星型拓扑（2-4 节点）

2.1.2 网状拓扑（4+ 节点）

2.2 并行策略

2.2.1 流水线并行（Pipeline Parallelism）

2.2.2 张量并行（Tensor Parallelism）

2.3 内存规划

3. 部署实战

3.1 硬件准备

3.1.1 设备清单（4 节点示例）

3.1.2 连接方式

3.2 系统配置

3.2.1 启用 RDMA（macOS 15+）

3.2.2 安装 exo（方法 1：源码）

3.2.3 安装 exo（方法 2：macOS App）

3.2.4 网络配置

3.3 集群启动

3.3.1 在每台设备上启动 exo

3.3.2 验证集群状态

4. 模型部署

4.1 模型选择与预览

4.1.1 查看可用模型

4.1.2 预览部署方案

4.2 创建模型实例

4.2.1 部署模型

4.2.2 监控部署状态

4.3 推理测试

4.3.1 Chat Completion API

4.3.2 非流式推理

4.3.3 使用 Python SDK

5. 性能优化与监控

5.1 基准测试

5.1.1 运行基准测试

5.1.2 分析结果

5.2 实时监控

5.2.1 Dashboard 监控

5.2.2 硬件监控（macOS）

5.2.3 网络监控

5.3 调优建议

5.3.1 内存优化

5.3.2 通信优化

5.3.3 模型优化

6. 生产环境部署

6.1 高可用架构

6.1.1 冗余配置

6.1.2 负载均衡

6.2 安全配置

6.2.1 网络隔离

6.2.2 反向代理 + 认证

6.3 监控与告警

6.3.1 Prometheus + Grafana

6.3.2 日志管理

7. 故障排查

7.1 常见问题

7.1.1 节点无法发现

7.1.2 RDMA 初始化失败

7.1.3 内存不足（OOM）

7.1.4 推理速度慢

7.2 日志分析

7.2.1 关键日志位置

7.2.2 调试模式

8. 实战案例

8.1 案例一：搭建 4 节点 Qwen3-235B 集群

8.2 案例二：Jeff Geerling 的 Mac Studio 集群

9. 与其他方案对比

9.1 vs. NVIDIA GPU 集群

10. 未来展望

10.1 技术演进

10.2 exo 路线图

10.3 应用场景扩展

11. 总结

附录

B. 配置脚本