强化学习 突破级 暂无讲解视频
发表时间
2026-03-06
arXiv
2603.06009

收录解读

论文解释了 PPO 长程训练中常见的平台期为何出现。作者把 PPO 拆成内循环和外循环,指出真正的问题是外循环步长相对采样噪声过大,导致策略在局部最优附近震荡而不是继续改进。基于这个视角,论文提出通过百万级并行环境扩大 rollout 数据量,同时保持内循环设置不变,仅增加优化步数,从而把 PPO 的有效学习范围推进到万亿步级别。它的重要性在于这不是一次调参经验,而是对在线策略优化失效机制的重新刻画。

链接