Beyond Pass@1: Self-play with variational problem synthesis sustains RLVR

强化学习突破级暂无讲解视频

发表时间: 2025-08-19
arXiv: 2508.14029

收录解读

这篇论文切入的是 RLVR 在推理模型训练中的一个真实瓶颈：模型在固定问题集上很快吃完高价值学习信号，导致继续训练时收益迅速枯竭。作者提出要让 RLVR 超越单次 pass@1 优化，关键不只是继续 rollout，而是通过 self-play 与 variational problem synthesis 持续制造新的、与当前能力边界匹配的问题。

方法上的核心是把 problem synthesis 与 RLVR 训练闭环绑定，让模型在训练过程中不断面对由自身能力边界诱发的新任务分布。这种做法的意义在于，它把“训练题库”从静态资源变成了动态生成对象，从而延长 RLVR 的有效训练寿命，并让 reasoning post-training 更像一个自我扩展的问题生成过程。

这项工作值得收录，因为它对当前 reasoning/RLVR 路线的一个核心难题给出了很直接的解法：不是再堆更大算力，而是重构训练信号来源。对 reasoning model curriculum、self-play data generation 和 post-training sustainability 都有明确外溢价值，因此比一般推理刷榜论文更值得收录。

它还不到更高一级，原因是这条路线是否能稳定推广到更多任务家族和不同模型规模，还需要更长周期的验证。现阶段更准确的定位是高位 breakthrough。

链接

论文链接