推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-09
arXiv
2604.08706

收录解读

这篇论文挑战 LLM post-training 中“必须严格 on-policy”的常见假设。由于生成 rollout 成本很高,完全丢弃旧样本可能并不是最优;经验回放在经典 RL 中成熟,却在 LLM RL 中长期被认为会因 stale data 失效。

作者系统研究 replay buffer 的设计权衡:staleness 引入的方差、样本多样性、生成成本和策略熵之间如何平衡。实验显示,设计良好的 replay buffer 可以显著降低 inference compute,同时不损害甚至提升最终性能。

它值得收录,是因为它为 RLVR/LLM RL 提供了训练系统层面的重要修正:on-policy 不是绝对教条,生成成本应进入算法设计目标。这个结论会影响大规模 reasoning RL 的采样、缓存和训练吞吐设计。

局限在于 replay 策略仍需针对任务、模型和 reward 噪声调参;理论边界和极大规模训练稳定性还有待验证。

链接