据动察 Beating 监测,针对大模型 PD(Prefill-Decode)分离部署中日益严峻的结构性网络拥塞难题,智谱、驭驯网络与清华大学开展联合攻关,提出并在 GLM-5.1 coding 千卡线上生产环境落地了 ZCube 组网架构。
随着长上下文和 PD 分离推理成为主流,KV Cache 的跨节点传输使推理流量呈现出严重的不对称特征,传统 ROFT(Rail-Optimized Fat-Tree)架构极易引发局部热点和链路冲突。ZCube 通过取消 Spine 层交换机,采用全网扁平化拓扑(2 跳网络直径),结合单/多轨混合接入机制,在架构层面实现了跨节点全网交换机之间的流量负载均衡。
在实际生产集群的基准测试中,保持 GPU、软件栈及应用不变的前提下,ZCube 架构相比传统架构减少了 33% 的交换机与光模块硬件支出,同时 GPU 平均推理吞吐率提升了 15%,首 Token 时延(TTFT)P99 分位数下降了 40.6%。