Near-Future Policy Optimization

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-24
arXiv: 2604.20733

收录解读

这篇论文针对 RLVR / post-training 一个很实在的问题：要想加速 on-policy 探索，最好能注入“比当前策略更强、但又别离得太远”的 off-policy 轨迹。现有做法通常只能二选一，要么外部教师质量高但分布太远，要么历史轨迹接近但上限有限。

NPO 的关键想法是直接使用同一训练 run 的 near-future self，也就是更晚一点的 checkpoint，作为辅助轨迹来源。这样它天然同时满足 stronger 和 closer 两个条件。论文还提出 AutoNPO，根据在线信号自动决定何时触发干预以及选哪个 guide checkpoint。

它值得正式收录，因为这不是一个窄任务 trick，而是 RLVR / mixed-policy post-training 的一个干净方法原语。尤其在 reasoning / multimodal post-training 上，这种“向近未来自己学习”的策略兼顾质量与方差，后续可复用空间很大。

它没有升到更高等级，是因为当前证据还集中在特定模型和 GRPO 设置，长期影响要看它在更广泛的 RLVR / preference / tool-use post-training 中是否成立。

链接

论文链接