推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文聚焦长上下文推理中的一个具体失败模式:模型在进行一段推理后,重新从上下文中定位证据的能力会快速下降。作者将其称为 lost-in-thought,并指出长上下文推理不是简单地“先读全上下文再推理”,而是检索与推理相互交织的过程。
RecaLLM 的方法是把显式 in-context retrieval 插入推理过程,让模型在中间子问题处交替执行推理和证据召回。系统还使用低开销约束解码机制来逐字复制上下文证据 span,从而增强后续生成的 grounding;训练则覆盖词面与语义检索任务,使模型学会在需要时主动从上下文中找回证据。
它值得收录,是因为它给长上下文和 test-time scaling 提供了一个清晰的控制模式:不是只增加思考长度,而是把可验证的上下文取证变成推理链的一等动作。论文在 RULER 与 HELMET 上展示了跨 4K 到 128K 上下文的收益,并且训练样本不需要达到同等长度,这对长上下文 agent、研究助理和文档推理系统都有可复用价值。
局限在于结果仍主要集中在检索密集型长上下文任务,方法依赖显式召回格式和后训练数据构造;开放式复杂任务中,何时召回、召回多少以及如何与外部 RAG 合并仍需进一步验证。因此它是长上下文推理控制的突破性方法,而不是完整的通用记忆架构。