推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-21
arXiv
2604.19295

收录解读

这篇论文针对 test-time training 在 reasoning model 上一个已经开始暴露但还没被解决的核心问题:算力继续加上去,现有方法却很快 plateau,而且多样性还会塌。作者把根因定位到 self-generated reward drift,也就是 policy 自己变了,但 critic / reward 估计没有同步校正。

TEMPO 的关键做法是在无标签问题上的 policy refinement 之间,周期性插入小规模有标签 critic recalibration。作者进一步把这个交替过程形式化成 EM,说明过去很多 TTT 方法其实是省掉关键校正步骤的不完整版本。这个解释把经验改进上升成了更清楚的理论结构。

它值得正式收录,因为这是 test-time training 从“能不能涨一点分”走向“如何稳定扩展 test-time compute”的重要推进。特别是在 reasoning model 上,它给出了一种可复用的 deployment-time adaptation pattern:不是盲目 self-train,而是把 critic 校准作为一等公民。

它没有升到 disruptive,是因为工作仍建立在现有 reasoning benchmarks 和带标签 critic 校准资源上,距离完全开放环境里的持续在线发现还有距离;但作为 TTT 主线的新强方法,已经足够进入正式库。

链接