To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00715

收录解读

RAG 系统已经很常见，但预训练阶段到底该把多少知识学进参数、又该把多少预算留给外部检索存储，这个问题一直缺少干净的定量回答。多数实践只能靠经验拍脑袋分配预训练语料和 retrieval store 规模，而缺乏可外推的规律。

这篇论文系统研究了模型参数规模、预训练 token 数量和检索语料库规模之间的三维关系。作者在 OLMo-2 系列不同模型尺寸与数据预算上做了大范围实验，比较 parametric-only baseline 与 retrieval-augmented setting，最后提出一个三维 scaling manifold，用来估计固定数据预算下 pretraining 与 retrieval 的最优分配。

这篇工作值得收录，因为它提供的是对 RAG-considerate pretraining 的结构性澄清，而不是单次经验结论。对于部署型 LLM、企业知识系统、低预算训练路线以及未来 memory-enhanced models，这类 scaling law 直接影响系统设计和资源配置，外溢价值很强。

它没有升到更高一级，是因为当前仍主要是经验性 scaling-law 拟合与一组模型族上的验证。它已经很有参考价值，但是否会成为更广泛的默认训练设计准则，还要看更多模型家族、更多 retrieval 形态和真实生产场景下的稳定性。

链接

论文链接