强化学习 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.15308

收录解读

问题与背景:自动驾驶高层规划必须同时处理多模态未来和闭环鲁棒性。纯 imitation 的 diffusion planner 能生成多样轨迹,但缺少负反馈和闭环纠错。

方法与新意:RAD-2 将 diffusion generator 与 RL discriminator 解耦:generator 生成候选轨迹,discriminator 根据长期驾驶质量重排,并用 Temporally Consistent GRPO 和 on-policy generator optimization 引入闭环反馈。

收录意义:这篇符合 embodied/control workflow 标准,因为它不是普通预测模型,而是把生成式轨迹建模和 RL 闭环评价组合成可复用 planner 训练结构。对自动驾驶、机器人规划和多候选动作选择都有借鉴价值。

局限:当前价值仍依赖自动驾驶仿真/数据设置,迁移到开放真实道路和其他机器人任务还需验证。

链接