RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

强化学习突破级暂无讲解视频

发表时间: 2026-04-16
arXiv: 2604.15308

收录解读

问题与背景：自动驾驶高层规划必须同时处理多模态未来和闭环鲁棒性。纯 imitation 的 diffusion planner 能生成多样轨迹，但缺少负反馈和闭环纠错。

方法与新意：RAD-2 将 diffusion generator 与 RL discriminator 解耦：generator 生成候选轨迹，discriminator 根据长期驾驶质量重排，并用 Temporally Consistent GRPO 和 on-policy generator optimization 引入闭环反馈。

收录意义：这篇符合 embodied/control workflow 标准，因为它不是普通预测模型，而是把生成式轨迹建模和 RL 闭环评价组合成可复用 planner 训练结构。对自动驾驶、机器人规划和多候选动作选择都有借鉴价值。

局限：当前价值仍依赖自动驾驶仿真/数据设置，迁移到开放真实道路和其他机器人任务还需验证。

链接

论文链接