HRM-Text: Efficient Pretraining Beyond Scaling

Guan Wang; Changling Liu; Chenyu Wang; Cai Zhou; Yuhao Sun; Yifei Wu; Shuai Zhen; Luca Scimeca; Yasin Abbasi Yadkori

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2026-05-20
arXiv: 2605.20613

核心要点

问题/背景: HRM-Text 挑战的是当前 LLM 预训练默认范式：继续堆 Transformer、互联网级 raw text 和大规模算力。论文把问题重新定义为 architecture-objective co-design，目标是在低 token、低预算条件下仍能从零训练出有竞争力的语言模型。
方法/机制: 方法上，它用 Hierarchical Recurrent Model 替代标准 Transformer，把计算拆成慢变化的 strategic layer 和快变化的 execution layer，并为深层递归语言建模加入 MagicNorm 与 warmup deep credit assignment。训练目标也不是传统 raw-text next-token pretraining，而是 instruction-respons...
结果/证据: 正式收录价值在于它给出了一个低成本从零预训练的 empirical existence proof：1B 模型、40B unique tokens、约 1500 美元预算，报告在 MMLU、ARC-C、DROP、GSM8K、MATH 等任务上接近 2-7B 开源模型。项目还发布了 GitHub 训练链路和 Hugging Face 权重，使它不仅是结果声明，而是可复用的预训练工程路线。
收录价值: 它不是更高一级，因为目前仍是预印本和单一团队的实证结果，关键 claims 需要独立复现；同时 benchmark 组合、数据构成和 instruction-only pretraining 是否能泛化到更广泛语言能力仍需验证。

完整收录解读

HRM-Text 挑战的是当前 LLM 预训练默认范式：继续堆 Transformer、互联网级 raw text 和大规模算力。论文把问题重新定义为 architecture-objective co-design，目标是在低 token、低预算条件下仍能从零训练出有竞争力的语言模型。

方法上，它用 Hierarchical Recurrent Model 替代标准 Transformer，把计算拆成慢变化的 strategic layer 和快变化的 execution layer，并为深层递归语言建模加入 MagicNorm 与 warmup deep credit assignment。训练目标也不是传统 raw-text next-token pretraining，而是 instruction-response pairs、task-completion objective 和 PrefixLM masking。

正式收录价值在于它给出了一个低成本从零预训练的 empirical existence proof：1B 模型、40B unique tokens、约 1500 美元预算，报告在 MMLU、ARC-C、DROP、GSM8K、MATH 等任务上接近 2-7B 开源模型。项目还发布了 GitHub 训练链路和 Hugging Face 权重，使它不仅是结果声明，而是可复用的预训练工程路线。

它不是更高一级，因为目前仍是预印本和单一团队的实证结果，关键 claims 需要独立复现；同时 benchmark 组合、数据构成和 instruction-only pretraining 是否能泛化到更广泛语言能力仍需验证。

原始摘要与中文对照

中文对照翻译

HRM-Text：超越规模的高效预训练。HRM-Text用分层循环模型取代了标准Transformer，该模型分离了慢速战略层和快速执行层，添加了MagicNorm和预热深度信用分配，并从头开始在指令-响应对上进行训练，采用任务完成和PrefixLM掩码。一个在400亿个独特token上训练的1B模型，成本约为1,500美元，报告了与2-7B开源模型相当的竞争力结果，这表明架构-目标协同设计可以显著降低预训练的计算和数据需求。

原始摘要

HRM-Text replaces standard Transformers with a Hierarchical Recurrent Model that separates slow strategic and fast execution layers, adds MagicNorm and warmup deep credit assignment, and trains from scratch on instruction-response pairs with task-completion and PrefixLM masking. A 1B model trained on 40B unique tokens for roughly $1,500 reports competitive results with 2-7B open models, suggesting architecture-objective co-design can sharply reduce pretraining compute and data requirements.

链接

论文链接论文链接项目代码代码代码

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接