Yifan Zhang披露DeepSeek V4完整技术规格:1.6T参数、384专家激活6个
快链头条 2026-04-22 21:54:25
据动察 Beating 监测,普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称,今晚给出了完整参数表,同时首次披露存在一个 285B 参数的轻量版 V4-Lite。
V4 总参 1.6T。注意力机制为 DSA2,组合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初论文提出的 NSA(Native Sparse Attention)两种稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑动窗口注意力)。MoE 层共 384 个专家,每次激活 6 个,使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。
训练端首次披露的细节包括:优化器用 Muon(一种将 Newton-Schulz 正交化应用于动量更新的矩阵级优化器),预训练上下文长度 32K,强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。
Zhang 不在 DeepSeek 任职,DeepSeek 官方未对上述信息做出回应。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。
7*24小时快讯
Aave 危机进展:追回 7000 万美元 ETH,创始人称正推进多方案化解风险
04-22 23:39(6分钟前)
伊朗:武装部队处于全面戒备状态,随时准备采取果断反击
04-22 23:38(7分钟前)
财报不重要了?特斯拉Q1前瞻:市场押注马斯克「未来叙事」能否继续撑估值
04-22 23:34(11分钟前)
纳斯达克综合指数再度刷新盘中历史新高;加密货币概念股强劲上涨
04-22 23:25(20分钟前)
伊朗否认举行美伊新谈判,指特朗普「又说谎了」
04-22 23:22(23分钟前)
报告称360 AI漏洞代理已发现近千个未知漏洞,与Mythos形成竞争
04-22 22:59(1小时前)
避险退潮+降息预期升温,美元多头集体撤退!
04-22 22:50(1小时前)
以军称黎巴嫩真主党「违反停火协议」
04-22 22:49(1小时前)
热门资讯
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。