强化学习 突破级 暂无讲解视频
发表时间
2026-03-18
arXiv
2603.17240

收录解读

这篇论文处理的是视频生成式 world-action model 在机器人策略学习中的部署瓶颈。已有 WAM 借用视频生成 backbone 同时推理未来视觉动态和动作,但这种联合建模在执行时很慢,而且动作质量会被未来视频预测质量拖累,不适合低延迟真实机器人控制。

GigaWorld-Policy 将 WAM 改造成 action-centered 结构:训练时仍利用未来视频生成作为视觉动态约束,但执行时主要直接解码未来动作序列,视频生成变成可选辅助分支。模型通过动作预测和视频生成的耦合监督学习 2D pixel-action dynamics,让策略利用视觉动态知识,却不必在部署时完整 rollout 视频。

它值得收录,因为它提供了一个对机器人 world model 很实用的解耦模式:训练阶段用 generative dynamics 丰富动作学习,推理阶段把控制路径压缩成直接 action decoding。论文报告相比 Motus 等 WAM 在推理速度上约 9x 提升,同时提高任务成功率,这对真实机器人部署和 action-conditioned world model 设计都有复用价值。

它不是更高一级,因为当前证据主要集中在特定仿真和真实机器人任务,方法是否能扩展到更复杂接触、多机器人协作、长时程规划和不同机器人形态仍需验证;视觉生成分支带来的物理一致性约束也可能依赖数据和 backbone 质量。

链接