RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-10
arXiv: 2604.09494

收录解读

这篇论文聚焦长上下文推理中的一个具体失败模式：模型在进行一段推理后，重新从上下文中定位证据的能力会快速下降。作者将其称为 lost-in-thought，并指出长上下文推理不是简单地“先读全上下文再推理”，而是检索与推理相互交织的过程。

RecaLLM 的方法是把显式 in-context retrieval 插入推理过程，让模型在中间子问题处交替执行推理和证据召回。系统还使用低开销约束解码机制来逐字复制上下文证据 span，从而增强后续生成的 grounding；训练则覆盖词面与语义检索任务，使模型学会在需要时主动从上下文中找回证据。

它值得收录，是因为它给长上下文和 test-time scaling 提供了一个清晰的控制模式：不是只增加思考长度，而是把可验证的上下文取证变成推理链的一等动作。论文在 RULER 与 HELMET 上展示了跨 4K 到 128K 上下文的收益，并且训练样本不需要达到同等长度，这对长上下文 agent、研究助理和文档推理系统都有可复用价值。

局限在于结果仍主要集中在检索密集型长上下文任务，方法依赖显式召回格式和后训练数据构造；开放式复杂任务中，何时召回、召回多少以及如何与外部 RAG 合并仍需进一步验证。因此它是长上下文推理控制的突破性方法，而不是完整的通用记忆架构。

链接

论文链接代码