GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Angen Ye; Boyuan Wang; Chaojun Ni; Guan Huang; Guosheng Zhao; Hao Li; Hengtao Li; Jie Li; Jindi Lv; Jingyu Liu; Min Cao; Peng Li; Qiuping Deng; Wenjun Mei; Xiaofeng Wang; Xinze Chen; Xinyu Zhou; Yang Wang; Yifan Chang; Yifan Li; Yukun Zhou; Yun Ye; Zhichao Liu; Zheng Zhu

强化学习突破级暂无讲解视频

发表时间: 2026-03-18
arXiv: 2603.17240

收录解读

这篇论文处理的是视频生成式 world-action model 在机器人策略学习中的部署瓶颈。已有 WAM 借用视频生成 backbone 同时推理未来视觉动态和动作，但这种联合建模在执行时很慢，而且动作质量会被未来视频预测质量拖累，不适合低延迟真实机器人控制。

GigaWorld-Policy 将 WAM 改造成 action-centered 结构：训练时仍利用未来视频生成作为视觉动态约束，但执行时主要直接解码未来动作序列，视频生成变成可选辅助分支。模型通过动作预测和视频生成的耦合监督学习 2D pixel-action dynamics，让策略利用视觉动态知识，却不必在部署时完整 rollout 视频。

它值得收录，因为它提供了一个对机器人 world model 很实用的解耦模式：训练阶段用 generative dynamics 丰富动作学习，推理阶段把控制路径压缩成直接 action decoding。论文报告相比 Motus 等 WAM 在推理速度上约 9x 提升，同时提高任务成功率，这对真实机器人部署和 action-conditioned world model 设计都有复用价值。

它不是更高一级，因为当前证据主要集中在特定仿真和真实机器人任务，方法是否能扩展到更复杂接触、多机器人协作、长时程规划和不同机器人形态仍需验证；视觉生成分支带来的物理一致性约束也可能依赖数据和 backbone 质量。

链接

论文链接