强化学习 突破级 暂无讲解视频
发表时间
2026-05-01
arXiv
2605.00416

收录解读

这篇论文最值钱的不是又把某个机器人任务做到了 95%,而是把 generalist robot policy 的 post-deployment improvement 写成了 fleet-scale 闭环。它关心的是部署之后如何持续吸收真实物理经验,而不是把所有能力都押在离线预训练上。

方法上它把 offline-to-online bridge 处理得比较工程化:从 pretrained VLA policy 出发,利用 fleet rollout 和 human intervention 回收数据,再用稳健 value estimation 与 flow-based policy extraction 做持续更新。这个结构对真实机器人部署比单机 RL 更有复用性。

它值得正式收录,因为未来通用机器人系统最大的落差之一就是离线数据和真实部署之间的 distribution shift。LWD 给出了一个清晰的长期运行学习工作流,而不是一次性 benchmark 攻关。

它没有更高,是因为当前验证仍集中在 16 台双臂机器人和 8 个任务上。虽然已经很强,但距离更广机器人群体和更多 embodiment 的统一框架还有一步。

链接