Yifan Zhang披露DeepSeek V4完整技术规格：1.6T参数、384专家激活6个 - 快链头条_区块链世界的入口_行情资讯_技术解读_独家深度

Yifan Zhang披露DeepSeek V4完整技术规格：1.6T参数、384专家激活6个

快链头条 2026-04-22 21:54:25

阅读 5,144

据动察 Beating 监测，普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称，今晚给出了完整参数表，同时首次披露存在一个 285B 参数的轻量版 V4-Lite。

V4 总参 1.6T。注意力机制为 DSA2，组合了 DeepSeek 此前在 V3.2 中使用的 DSA（DeepSeek Sparse Attention）和今年初论文提出的 NSA（Native Sparse Attention）两种稀疏注意力方案，head-dim 512，配合 Sparse MQA 和 SWA（滑动窗口注意力）。MoE 层共 384 个专家，每次激活 6 个，使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。

训练端首次披露的细节包括：优化器用 Muon（一种将 Newton-Schulz 正交化应用于动量更新的矩阵级优化器），预训练上下文长度 32K，强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。

Zhang 不在 DeepSeek 任职，DeepSeek 官方未对上述信息做出回应。

生成图片

快链头条登载此文本着传递更多信息的缘由，并不代表赞同其观点或证实其描述。
文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。
投资有风险，入市须谨慎。本资讯不作为投资理财建议。

推荐活动

【Amplify2026—Quantifying&Growth In Web 4.0】

2026-04-21 14:00

香港 Web3 嘉年华 2026

2026-04-20 18:34

【Amplify2026—VENTURE HORIZON】

2026-04-20 14:00

7*24小时快讯

Aave 危机进展：追回 7000 万美元 ETH，创始人称正推进多方案化解风险

04-22 23:39(6分钟前)

伊朗：武装部队处于全面戒备状态，随时准备采取果断反击

04-22 23:38(7分钟前)

财报不重要了？特斯拉Q1前瞻：市场押注马斯克「未来叙事」能否继续撑估值

04-22 23:34(11分钟前)

纳斯达克综合指数再度刷新盘中历史新高；加密货币概念股强劲上涨

04-22 23:25(20分钟前)

伊朗否认举行美伊新谈判，指特朗普「又说谎了」

04-22 23:22(23分钟前)

报告称360 AI漏洞代理已发现近千个未知漏洞，与Mythos形成竞争

04-22 22:59(1小时前)

避险退潮+降息预期升温，美元多头集体撤退！

04-22 22:50(1小时前)

以军称黎巴嫩真主党「违反停火协议」

04-22 22:49(1小时前)

热门资讯

四维共振：香港Web3嘉年华分论坛共绘全球金融新基建蓝图

2026-04-22 18:05:00

智链真资·香港RWI峰会圆满落幕：AI×RWA融合开启产业新篇章

2026-04-21 11:13:14

当头部加密 VC 规模全面缩水，为何这家机构还能增长 150%

2026-04-20 18:56:47

a16z 新文：预测市场，进入快进阶段

2026-04-20 09:31:57

风险提示

根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件，请广大公众理性看待区块链，不要盲目相信天花乱坠的承诺，树立正确的货币观念和投资理念，切实提高风险意识；对发现的违法犯罪线索，可积极向有关部门举报反映。