exo：将多台设备组成AI推理集群的完整指南

Sun, 03 May 2026 05:35:00 +0800

什么是 exo？

exo 是一个由 exo labs 维护的开源项目（Apache 2.0 协议），它的核心理念非常简单但强大：把你所有的设备连接起来，组成一个统一的 AI 推理集群。

不管你手上有 MacBook、Linux 服务器、还是其他设备，只要装上 exo，它们就能自动发现彼此，协同运行大语言模型。这意味着你可以运行单个设备放不下的大模型——比如用 4 台 Mac Studio 跑 671B 参数的 DeepSeek v3.1。

运行 exo 的设备会自动在局域网内发现彼此，无需任何手动配置。你不需要写配置文件，不需要指定 IP 地址，启动就能用。

exo 是首个支持 Thunderbolt 5 RDMA（远程直接内存访问）的 AI 推理框架。通过 Thunderbolt 5 连接设备，可以将设备间延迟降低 99%。这意味着添加更多设备不仅增加了显存，还真正加快了推理速度。

exo 会实时分析你的设备拓扑——每台设备的算力、内存，以及设备间的网络延迟和带宽——然后自动决定如何最优地拆分模型。你不需要手动配置流水线并行还是张量并行，exo 帮你搞定。

支持将模型张量切分到多台设备上并行计算。实测效果：

exo 同时兼容以下 API 格式，可以直接对接你现有的工具：