据动察 Beating 监测,普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称,今晚给出了完整参数表,同时首次披露存在一个 285B 参数的轻量版 V4-Lite。
V4 总参 1.6T。注意力机制为 DSA2,组合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初论文提出的 NSA(Native Sparse Attention)两种稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑动窗口注意力)。MoE 层共 384 个专家,每次激活 6 个,使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。
训练端首次披露的细节包括:优化器用 Muon(一种将 Newton-Schulz 正交化应用于动量更新的矩阵级优化器),预训练上下文长度 32K,强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。
Zhang 不在 DeepSeek 任职,DeepSeek 官方未对上述信息做出回应。