DeepSeek V4传下周发布,Yifan Zhang披露三项架构组件

快链头条 2026-04-19 12:02:59
阅读 7,536
二维码
微信扫一扫,分享此文章

据 动察Beating 监测,普林斯顿博士生 Yifan Zhang 透露,中国 AI 公司 DeepSeek(深度求索)的下一代旗舰 V4 将在下周发布;他在跟帖里列出三项架构组件:稀疏 MQA(Sparse Multi-Query Attention)、融合 MoE 大核(Fused MoE Mega Kernel)、Hyper-Connections。Zhang 本科北大元培、硕士清华姚班,现为普林斯顿 AI Lab Fellow,曾在字节跳动 Seed 基础模型团队任研究实习生;目前不在 DeepSeek 任职,DeepSeek 官方也未就发布时间表作出确认。

三项组件各对应 LLM 优化里的一条独立方向。稀疏 MQA 是在多查询注意力基础上引入稀疏性,用于在长上下文场景进一步压低推理算力和显存占用;融合 MoE 大核把 MoE 的路由判断与专家矩阵乘法编进同一个 GPU kernel,砍掉推理阶段大量 kernel 启动和显存搬运开销;Hyper-Connections 是对残差连接的泛化,用多条可学习加权通路替代单一残差加法。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。