推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-01
arXiv
2604.00715

收录解读

RAG 系统已经很常见,但预训练阶段到底该把多少知识学进参数、又该把多少预算留给外部检索存储,这个问题一直缺少干净的定量回答。多数实践只能靠经验拍脑袋分配预训练语料和 retrieval store 规模,而缺乏可外推的规律。

这篇论文系统研究了模型参数规模、预训练 token 数量和检索语料库规模之间的三维关系。作者在 OLMo-2 系列不同模型尺寸与数据预算上做了大范围实验,比较 parametric-only baseline 与 retrieval-augmented setting,最后提出一个三维 scaling manifold,用来估计固定数据预算下 pretraining 与 retrieval 的最优分配。

这篇工作值得收录,因为它提供的是对 RAG-considerate pretraining 的结构性澄清,而不是单次经验结论。对于部署型 LLM、企业知识系统、低预算训练路线以及未来 memory-enhanced models,这类 scaling law 直接影响系统设计和资源配置,外溢价值很强。

它没有升到更高一级,是因为当前仍主要是经验性 scaling-law 拟合与一组模型族上的验证。它已经很有参考价值,但是否会成为更广泛的默认训练设计准则,还要看更多模型家族、更多 retrieval 形态和真实生产场景下的稳定性。

链接