推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-03
arXiv
2604.03128

收录解读

RLVR 只拿到环境可验证结果,信号稀疏;而 on-policy distillation 虽然能给 token-level 密集信号,却往往需要教师或特权信息,并容易产生信息泄漏。社区最近尝试 self-distillation,但长期稳定性和真正可迁移的更新信号仍然是问题。

这篇工作提出 Self-Distilled RLVR,把 self-distillation 和 RLVR 重新分工:用自蒸馏得到 token-level policy differences 来控制更新幅度,同时继续依赖环境反馈给出可靠的更新方向。这样既保留了细粒度学习信号,又避免了单靠 privileged teacher 带来的长期训练不稳定。

它值得正式收录,因为它不是简单把两个训练范式拼在一起,而是给 reasoning post-training 提供了一个更清晰的接口分层。对 RLVR、reasoning RL 和自蒸馏后训练,这种 magnitude/direction 解耦有明显方法外溢。

它暂时不升到更高一级,原因在于当前仍主要是 reasoning post-training 子线内的方法推进,是否能成为更广后训练栈的默认组成还需要更多独立复现和后续采用。

链接