推理、记忆与推理时控制
突破级
有讲解视频
收录解读
这篇论文关注 test-time scaling 中一个核心问题:生成很多候选答案之后,模型应该如何更可靠地挑出最好的答案。作者认为传统的 pointwise 打分方式能力有限,因此提出把“生成”和“自验证”统一到一个 pairwise 框架中。
方法上,论文提出 `V1-Infer` 和 `V1-PairRL`。前者在推理时利用不确定性做 tournament ranking,动态分配验证算力;后者在训练时让模型同时学习候选生成和成对比较式的自验证。这样做的核心好处是,验证器不再只给每个答案一个孤立分数,而是直接学习两个候选之间谁更好。
价值在于它把推理增强里的“后验筛选”问题做成了更完整的方法体系,并给出了不错的数学与代码基准结果。它适合放在推理 / self-verification / test-time scaling 子方向中,属于值得收录的强方法论文,但还不到范式级。