智谱联合提出下一代大模型推理网络架构ZCube，破解PD分离引发的结构性网络拥塞

星期三

05 / 21

星期三 2026-05-21 12:52

据动察 Beating 监测，针对大模型 PD（Prefill-Decode）分离部署中日益严峻的结构性网络拥塞难题，智谱、驭驯网络与清华大学开展联合攻关，提出并在 GLM-5.1 coding 千卡线上生产环境落地了 ZCube 组网架构。

随着长上下文和 PD 分离推理成为主流，KV Cache 的跨节点传输使推理流量呈现出严重的不对称特征，传统 ROFT（Rail-Optimized Fat-Tree）架构极易引发局部热点和链路冲突。ZCube 通过取消 Spine 层交换机，采用全网扁平化拓扑（2 跳网络直径），结合单/多轨混合接入机制，在架构层面实现了跨节点全网交换机之间的流量负载均衡。

在实际生产集群的基准测试中，保持 GPU、软件栈及应用不变的前提下，ZCube 架构相比传统架构减少了 33% 的交换机与光模块硬件支出，同时 GPU 平均推理吞吐率提升了 15%，首 Token 时延（TTFT）P99 分位数下降了 40.6%。