DeepSeek开源TileKernels,公开内部训练推理用GPU内核库
快链头条 2026-04-23 17:40:16
据动察 Beating 监测,DeepSeek 以 MIT 许可证开源 TileKernels,一个用 TileLang 编写的 GPU 内核库,面向大模型训练和推理场景。TileLang 是一种用 Python 表达高性能 GPU 内核的领域专用语言,由 tile-ai 团队开发。DeepSeek 称库中多数内核在计算密度和内存带宽方面已接近硬件性能极限,部分已用于内部训练和推理。
库包含六大类内核:MoE 门控与路由(混合专家模型的 Top-k 专家选择、token 到专家映射、融合扩展/收缩与权重归一化);量化(支持 FP8、FP4、E5M6 格式的逐 token、逐块、逐通道量化,含融合 SwiGLU+量化操作);批量转置;Engram 门控(含融合 RMSNorm 的前向/反向传播与权重梯度归约);Manifold HyperConnection(含 Sinkhorn 归一化和混合拆分/应用);以及将底层内核封装为可训练层的高层 autograd 接口。其中 Engram 和 Manifold HyperConnection 是 DeepSeek 模型架构中的专有组件,此次随代码首次公开实现细节。
运行要求 NVIDIA SM90 或 SM100 架构 GPU(对应 H100/H200 或 Blackwell 系列)、CUDA Toolkit 13.1 以上、PyTorch 2.10 以上。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。