星期一
05 / 19
1500美元从零训出1B基础模型!Sapient开源层级推理架构HRM-Text
星期一 2026-05-19 15:34

据动察 Beating 监测,Sapient Intelligence 开源了 10 亿参数(1B)的文本生成基础模型 HRM-Text。这是一款基于层级推理模型(HRM)架构的纯预训练模型。它通过在架构底层引入潜在空间推理,将基础模型预训练的算力消耗缩减了 130 至 600 倍。

具体而言,HRM-Text 仅使用 400 亿(40B)个结构化 Token 便完成了预训练,数据量约为同级别常规模型的千分之一。官方实测显示,使用两台 8 卡 H100 服务器,耗时约 46 小时即可从零训完 1B 版本,计算成本约 1472 美元;而 0.6B 版本只需单节点跑 50 小时,硬件成本约 800 美元。包含数据提取、序列打包与 PyTorch 分布式训练在内的完整工程框架均已同步开源。

极限降本的支撑在于独特的双时间尺度循环(Dual-timescale recurrent)设计。模型内置了快(低层)与慢(高层)两套 Transformer 模块。这两套模块在同一批输入上交替迭代,并通过状态相加来交换信息。这种设计允许模型在物理参数总量固定的前提下,通过增加循环次数来动态拓展计算深度。

预训练门槛的断崖式下降,让许多过去因算力昂贵而被搁置的模型理论,重新获得了低成本验证的机会。需要特别注意的是,本次释放的仅为未对齐的纯预训练权重,模型只能执行前缀续写任务,无法直接作为问答助手使用。