Hugging Face正式推出Kernels，GPU算子像模型一样一行代码装好

星期二

04 / 15

星期二 2026-04-15 12:02

据 1M AI News 监测，Hugging Face CEO Clem Delangue 宣布 Kernels 正式上线 Hub。GPU 算子是让显卡跑出极限速度的底层优化代码，能将推理和训练加速 1.7 至 2.5 倍，但安装一直是噩梦：以最常用的 FlashAttention 为例，本地编译需要约 96GB 内存和数小时，PyTorch 版本、CUDA 版本稍有不对就报错，多数开发者在安装这一步就卡住了。

Kernels Hub 把编译搬到云端。Hugging Face 提前在各种显卡和系统环境下编译好算子，开发者写一行代码，Hub 自动匹配硬件环境，几秒内下载预编译文件直接可用。同一进程可加载多个不同版本算子，兼容 torch.compile。

Kernels 去年 6 月测试上线，本月升级为 Hub 一级仓库类型，与 Models、Datasets、Spaces 并列。目前已有 61 个预编译算子，覆盖注意力机制、归一化、混合专家路由、量化等常用场景，支持英伟达 CUDA、AMD ROCm、苹果 Metal 和英特尔 XPU 四种硬件加速平台，已集成进 Hugging Face 的推理框架 TGI 和 Transformers 库。