收录解读
这篇论文讨论的是长上下文推理里的一个核心难点:即使模型窗口变长,真正稳定地抽取、组织并使用远距离信息依然很难。此前 Recursive Language Models 这类方法试图通过递归式子调用和程序化上下文交互来处理长文档,但这条路线的成功到底来自递归结构本身,还是来自更一般的推理程序搜索,一直没有被讲清。
作者提出的 SRLM 把重点从显式递归转向 uncertainty-aware self-reflective program search。它利用 self-consistency、reasoning length 和 verbalized confidence 三种内在信号来估计模型不确定性,再用这些信号比较候选的 context-interaction programs。实验显示,在相同时间预算下,SRLM 相比 RLM 最高可提升 22%,而且一个重要结论是:递归本身并不是 RLM 有效的主要原因,简单的自反式程序搜索在很多设置下就可以匹配甚至超过显式递归。
这篇工作值得正式收录,因为它不只是给长上下文任务再加一个新技巧,而是对一个正在形成中的方向做了方法澄清:在 long-context agentic inference 中,好的 program search 和 uncertainty signal 可能比递归结构本身更关键。这对长上下文推理、inference-time search、agentic decomposition 和 uncertainty-aware LM 控制都有明确外溢价值。
它目前适合定为 breakthrough,而不是更高一级。原因是这仍是预印本,影响力还主要体现在一组扎实的实验和相对清晰的机制结论上,而不是已经成为社区公认的新默认范式。它更像一篇很好的方向澄清与方法增强论文,距离 paradigm 或 disruptive 还差更广泛的独立采用与跨任务验证。