强化学习
突破级
暂无讲解视频
收录解读
问题与背景:自动驾驶高层规划必须同时处理多模态未来和闭环鲁棒性。纯 imitation 的 diffusion planner 能生成多样轨迹,但缺少负反馈和闭环纠错。
方法与新意:RAD-2 将 diffusion generator 与 RL discriminator 解耦:generator 生成候选轨迹,discriminator 根据长期驾驶质量重排,并用 Temporally Consistent GRPO 和 on-policy generator optimization 引入闭环反馈。
收录意义:这篇符合 embodied/control workflow 标准,因为它不是普通预测模型,而是把生成式轨迹建模和 RL 闭环评价组合成可复用 planner 训练结构。对自动驾驶、机器人规划和多候选动作选择都有借鉴价值。
局限:当前价值仍依赖自动驾驶仿真/数据设置,迁移到开放真实道路和其他机器人任务还需验证。