推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-01
arXiv
2604.01170

收录解读

test-time scaling 带来了更强推理能力,但也把推理成本迅速推高。很多情况下,真正的问题不是模型不会做,而是采样和 stopping 决策缺乏校准,导致系统在无需额外思考时仍然花大量算力。ORCA 正是从 reasoning calibration 这个角度切入,尝试在保证风险控制的前提下减少无效 compute。

论文提出 Online Reasoning Calibration,把 conformal prediction 与 test-time training 结合起来。核心做法是为每个输入在线更新 calibration module,使其适应 reasoning 过程中的分布变化,以及开发阶段与部署阶段 prompt 分布的偏移。作者给出 conformal risk 保证,并在多类 reasoning 任务上报告显著效率提升,尤其在 OOD 设置下相对静态校准大幅提高节省算力的幅度。

这篇工作值得收录,因为它把 reasoning efficiency 问题从简单的 sample budget 调整,推进到‘在线校准 reasoning process’这一更系统的 post-deployment adaptation 模式。它与仓库关注的 test-time learning、inference-time adaptation 和 reasoning control 非常贴近,属于可复用的方法模式,而不只是某个技巧性节流。

它没有升到更高一级,是因为当前仍主要验证在特定推理 benchmark 和模型族上。理论与实证都不错,但是否会成为更广泛 reasoning stack 的标准组件,还需要跨模型、跨任务、跨部署场景的进一步证据。

链接