exo:将多台设备组成AI推理集群的完整指南
什么是 exo? exo 是一个由 exo labs 维护的开源项目(Apache 2.0 协议),它的核心理念非常简单但强大:把你所有的设备连接起来,组成一个统一的 AI 推理集群。 不管你手上有 MacBook、Linux 服务器、还是其他设备,只要装上 exo,它们就能自动发现彼此,协同运行大语言模型。这意味着你可以运行单个设备放不下的大模型——比如用 4 台 Mac Studio 跑 671B 参数的 DeepSeek v3.1。 项目地址:https://github.com/exo-explore/exo 核心特性 1. 自动设备发现 运行 exo 的设备会自动在局域网内发现彼此,无需任何手动配置。你不需要写配置文件,不需要指定 IP 地址,启动就能用。 2. Thunderbolt RDMA 支持 exo 是首个支持 Thunderbolt 5 RDMA(远程直接内存访问)的 AI 推理框架。通过 Thunderbolt 5 连接设备,可以将设备间延迟降低 99%。这意味着添加更多设备不仅增加了显存,还真正加快了推理速度。 3. 拓扑感知的自动并行 exo 会实时分析你的设备拓扑——每台设备的算力、内存,以及设备间的网络延迟和带宽——然后自动决定如何最优地拆分模型。你不需要手动配置流水线并行还是张量并行,exo 帮你搞定。 4. 张量并行(Tensor Parallelism) 支持将模型张量切分到多台设备上并行计算。实测效果: 2 台设备:最高 1.8 倍加速 4 台设备:最高 3.2 倍加速 5. 多种 API 兼容 exo 同时兼容以下 API 格式,可以直接对接你现有的工具: ...