星期二
04 / 15
Hugging Face正式推出Kernels,GPU算子像模型一样一行代码装好
星期二 2026-04-15 12:02

据 1M AI News 监测,Hugging Face CEO Clem Delangue 宣布 Kernels 正式上线 Hub。GPU 算子是让显卡跑出极限速度的底层优化代码,能将推理和训练加速 1.7 至 2.5 倍,但安装一直是噩梦:以最常用的 FlashAttention 为例,本地编译需要约 96GB 内存和数小时,PyTorch 版本、CUDA 版本稍有不对就报错,多数开发者在安装这一步就卡住了。

Kernels Hub 把编译搬到云端。Hugging Face 提前在各种显卡和系统环境下编译好算子,开发者写一行代码,Hub 自动匹配硬件环境,几秒内下载预编译文件直接可用。同一进程可加载多个不同版本算子,兼容 torch.compile。


Kernels 去年 6 月测试上线,本月升级为 Hub 一级仓库类型,与 Models、Datasets、Spaces 并列。目前已有 61 个预编译算子,覆盖注意力机制、归一化、混合专家路由、量化等常用场景,支持英伟达 CUDA、AMD ROCm、苹果 Metal 和英特尔 XPU 四种硬件加速平台,已集成进 Hugging Face 的推理框架 TGI 和 Transformers 库。