Yifan Zhang披露DeepSeek V4完整技术规格：1.6T参数、384专家激活6个

星期二

04 / 22

星期二 2026-04-22 21:54

据动察 Beating 监测，普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称，今晚给出了完整参数表，同时首次披露存在一个 285B 参数的轻量版 V4-Lite。

V4 总参 1.6T。注意力机制为 DSA2，组合了 DeepSeek 此前在 V3.2 中使用的 DSA（DeepSeek Sparse Attention）和今年初论文提出的 NSA（Native Sparse Attention）两种稀疏注意力方案，head-dim 512，配合 Sparse MQA 和 SWA（滑动窗口注意力）。MoE 层共 384 个专家，每次激活 6 个，使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。

训练端首次披露的细节包括：优化器用 Muon（一种将 Newton-Schulz 正交化应用于动量更新的矩阵级优化器），预训练上下文长度 32K，强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。

Zhang 不在 DeepSeek 任职，DeepSeek 官方未对上述信息做出回应。