推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文挑战 LLM post-training 中“必须严格 on-policy”的常见假设。由于生成 rollout 成本很高,完全丢弃旧样本可能并不是最优;经验回放在经典 RL 中成熟,却在 LLM RL 中长期被认为会因 stale data 失效。
作者系统研究 replay buffer 的设计权衡:staleness 引入的方差、样本多样性、生成成本和策略熵之间如何平衡。实验显示,设计良好的 replay buffer 可以显著降低 inference compute,同时不损害甚至提升最终性能。
它值得收录,是因为它为 RLVR/LLM RL 提供了训练系统层面的重要修正:on-policy 不是绝对教条,生成成本应进入算法设计目标。这个结论会影响大规模 reasoning RL 的采样、缓存和训练吞吐设计。
局限在于 replay 策略仍需针对任务、模型和 reward 噪声调参;理论边界和极大规模训练稳定性还有待验证。