$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners

推理、记忆与推理时控制突破级有讲解视频

收录解读

这篇论文关注 test-time scaling 中一个核心问题：生成很多候选答案之后，模型应该如何更可靠地挑出最好的答案。作者认为传统的 pointwise 打分方式能力有限，因此提出把“生成”和“自验证”统一到一个 pairwise 框架中。

方法上，论文提出 `V1-Infer` 和 `V1-PairRL`。前者在推理时利用不确定性做 tournament ranking，动态分配验证算力；后者在训练时让模型同时学习候选生成和成对比较式的自验证。这样做的核心好处是，验证器不再只给每个答案一个孤立分数，而是直接学习两个候选之间谁更好。

价值在于它把推理增强里的“后验筛选”问题做成了更完整的方法体系，并给出了不错的数学与代码基准结果。它适合放在推理 / self-verification / test-time scaling 子方向中，属于值得收录的强方法论文，但还不到范式级。