强化学习
突破级
暂无讲解视频
收录解读
问题与背景:RLVR 通常优化条件分布 P(y|x),但它受限于 base model 原本能采到的输出空间。论文提出把一部分强化学习搬到 pre-train space,直接调节边缘分布 P(y),用更宽的输出分布先塑造推理能力。
方法与新意:PreRL 论证 log P(y) 与 log P(y|x) 的梯度对齐,并发现 Negative Sample Reinforcement 能快速剪除错误推理空间、激发反思行为。随后 DSRL 用 PreRL 初始化推理 horizon,再切换到标准 RL 做精调。
收录意义:这篇重要在于重新划分了 reasoning RL 的优化空间:不只是在 prompt-conditioned rollout 上改策略,也可以先在 pretrain-like 边缘分布上做 reward-driven pruning。这个问题定义对后续 RLVR、reasoning pretraining 和 policy initialization 都有启发。
局限:PreRL 的稳定性、数据效率和对普通语言能力的副作用仍需更大规模第三方复现;负样本强化是否普适也需要跨模型验证。