推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文针对 RLVR / post-training 一个很实在的问题:要想加速 on-policy 探索,最好能注入“比当前策略更强、但又别离得太远”的 off-policy 轨迹。现有做法通常只能二选一,要么外部教师质量高但分布太远,要么历史轨迹接近但上限有限。
NPO 的关键想法是直接使用同一训练 run 的 near-future self,也就是更晚一点的 checkpoint,作为辅助轨迹来源。这样它天然同时满足 stronger 和 closer 两个条件。论文还提出 AutoNPO,根据在线信号自动决定何时触发干预以及选哪个 guide checkpoint。
它值得正式收录,因为这不是一个窄任务 trick,而是 RLVR / mixed-policy post-training 的一个干净方法原语。尤其在 reasoning / multimodal post-training 上,这种“向近未来自己学习”的策略兼顾质量与方差,后续可复用空间很大。
它没有升到更高等级,是因为当前证据还集中在特定模型和 GRPO 设置,长期影响要看它在更广泛的 RLVR / preference / tool-use post-training 中是否成立。