Efficient RL Training for LLMs with Experience Replay

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

这篇论文挑战 LLM post-training 中“必须严格 on-policy”的常见假设。由于生成 rollout 成本很高，完全丢弃旧样本可能并不是最优；经验回放在经典 RL 中成熟，却在 LLM RL 中长期被认为会因 stale data 失效。

作者系统研究 replay buffer 的设计权衡：staleness 引入的方差、样本多样性、生成成本和策略熵之间如何平衡。实验显示，设计良好的 replay buffer 可以显著降低 inference compute，同时不损害甚至提升最终性能。

它值得收录，是因为它为 RLVR/LLM RL 提供了训练系统层面的重要修正：on-policy 不是绝对教条，生成成本应进入算法设计目标。这个结论会影响大规模 reasoning RL 的采样、缓存和训练吞吐设计。

局限在于 replay 策略仍需针对任务、模型和 reward 噪声调参；理论边界和极大规模训练稳定性还有待验证。