DeepSeek开源TileKernels,公开内部训练推理用GPU内核库

快链头条 2026-04-23 17:40:16
阅读 7,496
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,DeepSeek 以 MIT 许可证开源 TileKernels,一个用 TileLang 编写的 GPU 内核库,面向大模型训练和推理场景。TileLang 是一种用 Python 表达高性能 GPU 内核的领域专用语言,由 tile-ai 团队开发。DeepSeek 称库中多数内核在计算密度和内存带宽方面已接近硬件性能极限,部分已用于内部训练和推理。

库包含六大类内核:MoE 门控与路由(混合专家模型的 Top-k 专家选择、token 到专家映射、融合扩展/收缩与权重归一化);量化(支持 FP8、FP4、E5M6 格式的逐 token、逐块、逐通道量化,含融合 SwiGLU+量化操作);批量转置;Engram 门控(含融合 RMSNorm 的前向/反向传播与权重梯度归约);Manifold HyperConnection(含 Sinkhorn 归一化和混合拆分/应用);以及将底层内核封装为可训练层的高层 autograd 接口。其中 Engram 和 Manifold HyperConnection 是 DeepSeek 模型架构中的专有组件,此次随代码首次公开实现细节。

运行要求 NVIDIA SM90 或 SM100 架构 GPU(对应 H100/H200 或 Blackwell 系列)、CUDA Toolkit 13.1 以上、PyTorch 2.10 以上。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。