Yifan Zhang披露DeepSeek V4完整技术规格:1.6T参数、384专家激活6个

快链头条 2026-04-22 21:54:25
阅读 5,144
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称,今晚给出了完整参数表,同时首次披露存在一个 285B 参数的轻量版 V4-Lite。

V4 总参 1.6T。注意力机制为 DSA2,组合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初论文提出的 NSA(Native Sparse Attention)两种稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑动窗口注意力)。MoE 层共 384 个专家,每次激活 6 个,使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。

训练端首次披露的细节包括:优化器用 Muon(一种将 Newton-Schulz 正交化应用于动量更新的矩阵级优化器),预训练上下文长度 32K,强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。

Zhang 不在 DeepSeek 任职,DeepSeek 官方未对上述信息做出回应。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。