智谱联合提出下一代大模型推理网络架构ZCube,破解PD分离引发的结构性网络拥塞

快链头条 2026-05-21 12:52:50
阅读 4,176
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,针对大模型 PD(Prefill-Decode)分离部署中日益严峻的结构性网络拥塞难题,智谱、驭驯网络与清华大学开展联合攻关,提出并在 GLM-5.1 coding 千卡线上生产环境落地了 ZCube 组网架构。

随着长上下文和 PD 分离推理成为主流,KV Cache 的跨节点传输使推理流量呈现出严重的不对称特征,传统 ROFT(Rail-Optimized Fat-Tree)架构极易引发局部热点和链路冲突。ZCube 通过取消 Spine 层交换机,采用全网扁平化拓扑(2 跳网络直径),结合单/多轨混合接入机制,在架构层面实现了跨节点全网交换机之间的流量负载均衡。

在实际生产集群的基准测试中,保持 GPU、软件栈及应用不变的前提下,ZCube 架构相比传统架构减少了 33% 的交换机与光模块硬件支出,同时 GPU 平均推理吞吐率提升了 15%,首 Token 时延(TTFT)P99 分位数下降了 40.6%。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。