核心要点
- 问题/背景
- HRM-Text 挑战的是当前 LLM 预训练默认范式:继续堆 Transformer、互联网级 raw text 和大规模算力。论文把问题重新定义为 architecture-objective co-design,目标是在低 token、低预算条件下仍能从零训练出有竞争力的语言模型。
- 方法/机制
- 方法上,它用 Hierarchical Recurrent Model 替代标准 Transformer,把计算拆成慢变化的 strategic layer 和快变化的 execution layer,并为深层递归语言建模加入 MagicNorm 与 warmup deep credit assignment。训练目标也不是传统 raw-text next-token pretraining,而是 instruction-respons...
- 结果/证据
- 正式收录价值在于它给出了一个低成本从零预训练的 empirical existence proof:1B 模型、40B unique tokens、约 1500 美元预算,报告在 MMLU、ARC-C、DROP、GSM8K、MATH 等任务上接近 2-7B 开源模型。项目还发布了 GitHub 训练链路和 Hugging Face 权重,使它不仅是结果声明,而是可复用的预训练工程路线。
- 收录价值
- 它不是更高一级,因为目前仍是预印本和单一团队的实证结果,关键 claims 需要独立复现;同时 benchmark 组合、数据构成和 instruction-only pretraining 是否能泛化到更广泛语言能力仍需验证。
原始摘要与中文对照
中文对照翻译
HRM-Text:超越规模的高效预训练。HRM-Text用分层循环模型取代了标准Transformer,该模型分离了慢速战略层和快速执行层,添加了MagicNorm和预热深度信用分配,并从头开始在指令-响应对上进行训练,采用任务完成和PrefixLM掩码。一个在400亿个独特token上训练的1B模型,成本约为1,500美元,报告了与2-7B开源模型相当的竞争力结果,这表明架构-目标协同设计可以显著降低预训练的计算和数据需求。
原始摘要
HRM-Text replaces standard Transformers with a Hierarchical Recurrent Model that separates slow strategic and fast execution layers, adds MagicNorm and warmup deep credit assignment, and trains from scratch on instruction-response pairs with task-completion and PrefixLM masking. A 1B model trained on 40B unique tokens for roughly $1,500 reports competitive results with 2-7B open models, suggesting architecture-objective co-design can sharply reduce pretraining compute and data requirements.