From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

强化学习突破级暂无讲解视频

发表时间: 2026-04-15
arXiv: 2604.14142

收录解读

问题与背景：RLVR 通常优化条件分布 P(y|x)，但它受限于 base model 原本能采到的输出空间。论文提出把一部分强化学习搬到 pre-train space，直接调节边缘分布 P(y)，用更宽的输出分布先塑造推理能力。

方法与新意：PreRL 论证 log P(y) 与 log P(y|x) 的梯度对齐，并发现 Negative Sample Reinforcement 能快速剪除错误推理空间、激发反思行为。随后 DSRL 用 PreRL 初始化推理 horizon，再切换到标准 RL 做精调。

收录意义：这篇重要在于重新划分了 reasoning RL 的优化空间：不只是在 prompt-conditioned rollout 上改策略，也可以先在 pretrain-like 边缘分布上做 reward-driven pruning。这个问题定义对后续 RLVR、reasoning pretraining 和 policy initialization 都有启发。

局限：PreRL 的稳定性、数据效率和对普通语言能力的副作用仍需更大规模第三方复现；负样本强化是否普适也需要跨模型验证。

链接

论文链接