Training Language Models via Neural Cellular Automata

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2026-03-09
arXiv: 2603.10055

收录解读

这篇论文要回答一个非常根本的问题：训练语言模型获得推理和上下文学习能力，是否真的必须依赖自然语言语料？作者提出先用神经元胞自动机（NCA）生成的非语言序列做“预-预训练”，再进入常规自然语言训练，从而把结构性计算能力先注入模型。

方法上，作者用 NCA 生成具有丰富时空结构和可控复杂度的合成 token 序列，并系统研究它们对后续 OpenWebText、OpenWebMath、CodeParrot 等语料训练的迁移效果。结果显示，只用 1.64 亿个 NCA token 的预-预训练，就能优于 16 亿个自然语言 token 的同类阶段训练，并改善语言建模、数学、代码等下游表现。

它在仓库里属于“合成数据预训练 / reasoning priors / language model training”主线。论文真正重要的地方不是再做一个小数据增强技巧，而是在探索一种不同于人类语言统计的能力注入路径，对未来完全或部分合成预训练路线很有启发。

它没有升到更高一级，是因为当前仍然需要自然语言阶段来完成语义对齐，NCA 还不是自然语言预训练的完整替代方案。它更像一条很有潜力的新训练路线，而不是已经完成主流替换的范式跃迁。

链接

论文链接