TEMPO: Scaling Test-time Training for Large Reasoning Models

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-21
arXiv: 2604.19295

收录解读

这篇论文针对 test-time training 在 reasoning model 上一个已经开始暴露但还没被解决的核心问题：算力继续加上去，现有方法却很快 plateau，而且多样性还会塌。作者把根因定位到 self-generated reward drift，也就是 policy 自己变了，但 critic / reward 估计没有同步校正。

TEMPO 的关键做法是在无标签问题上的 policy refinement 之间，周期性插入小规模有标签 critic recalibration。作者进一步把这个交替过程形式化成 EM，说明过去很多 TTT 方法其实是省掉关键校正步骤的不完整版本。这个解释把经验改进上升成了更清楚的理论结构。

它值得正式收录，因为这是 test-time training 从“能不能涨一点分”走向“如何稳定扩展 test-time compute”的重要推进。特别是在 reasoning model 上，它给出了一种可复用的 deployment-time adaptation pattern：不是盲目 self-train，而是把 critic 校准作为一等公民。

它没有升到 disruptive，是因为工作仍建立在现有 reasoning benchmarks 和带标签 critic 校准资源上，距离完全开放环境里的持续在线发现还有距离；但作为 TTT 主线的新强方法，已经足够进入正式库。

链接

论文链接