推特联创Dorsey推荐mesh-llm：把闲置GPU拼成去中心化推理网络

快链头条 2026-04-03 19:03:44

阅读 4,551

据 1M AI News 监测，Twitter 与 Block 联合创始人 Jack Dorsey 推荐了 mesh-llm，一个将闲置 GPU 组成点对点网络、协同运行开源大模型的工具。项目由 Block 应用 AI 团队首席工程师 Michael Neale 开发，是 Block 开源 AI Agent 平台 Goose 生态的一部分，MIT 许可证，Rust 编写。

mesh-llm 的核心逻辑：放得下就单机满速跑，放不下就自动分布。Dense 模型按层切分做流水线并行，MoE 模型（如 Qwen3、GLM、DeepSeek）按专家分片，每个节点独立推理，节点间零流量。实测数据坦诚：GLM-4.7-Flash（17GB）单机 68 tok/s，2 节点 WiFi 分片降至 21 tok/s，3 节点降至 12-13 tok/s，跨城市网络（约 20ms 延迟）为 10-25 tok/s。速度损耗是真实的，但它的目标用户是想跑 142GB 的 Qwen3-235B 或 138GB 的 MiniMax M2.5 却只有一张 24GB 显卡的人——对他们来说，选项不是「快」还是「慢」，而是「能跑」还是「根本跑不了」。

这条路技术上走得通，根本原因在于推理和训练的通信模式截然不同。分布式训练每一步需要同步全部梯度，通信量巨大，对带宽和延迟的要求是数据中心级别；推理的节点间只需传激活值，通信量低得多，而且延迟只影响首 token 时间，不影响每个 token 的吐出速度。这也是为什么「用全球闲置 GPU 训练前沿模型」至今走不通，而 mesh-llm 可以。

生成图片