1500美元从零训出1B基础模型！Sapient开源层级推理架构HRM-Text

星期一

05 / 19

星期一 2026-05-19 15:34

据动察 Beating 监测，Sapient Intelligence 开源了 10 亿参数（1B）的文本生成基础模型 HRM-Text。这是一款基于层级推理模型（HRM）架构的纯预训练模型。它通过在架构底层引入潜在空间推理，将基础模型预训练的算力消耗缩减了 130 至 600 倍。

具体而言，HRM-Text 仅使用 400 亿（40B）个结构化 Token 便完成了预训练，数据量约为同级别常规模型的千分之一。官方实测显示，使用两台 8 卡 H100 服务器，耗时约 46 小时即可从零训完 1B 版本，计算成本约 1472 美元；而 0.6B 版本只需单节点跑 50 小时，硬件成本约 800 美元。包含数据提取、序列打包与 PyTorch 分布式训练在内的完整工程框架均已同步开源。

极限降本的支撑在于独特的双时间尺度循环（Dual-timescale recurrent）设计。模型内置了快（低层）与慢（高层）两套 Transformer 模块。这两套模块在同一批输入上交替迭代，并通过状态相加来交换信息。这种设计允许模型在物理参数总量固定的前提下，通过增加循环次数来动态拓展计算深度。

预训练门槛的断崖式下降，让许多过去因算力昂贵而被搁置的模型理论，重新获得了低成本验证的机会。需要特别注意的是，本次释放的仅为未对齐的纯预训练权重，模型只能执行前缀续写任务，无法直接作为问答助手使用。