Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

强化学习突破级有讲解视频

收录解读

这篇 ICCV 2025 论文关注一个核心具身智能问题：如何把普通视频里的动作经验转化为机器人可学习、可迁移的操作表示。它不是只做视觉识别，而是把视频动作压缩成 latent motion token，作为视频、语言和机器人控制之间的桥接语言。

方法价值在于把动作学习的中间层显式化：motion token 既能从视频中抽取，又能服务于后续策略学习，减少了直接从像素到动作映射时的跨域鸿沟。对于利用互联网视频或人类演示扩展机器人技能库，这种表示接口有复用价值。

按本库标准，它值得收录在机器人/具身智能方向，因为贡献不是单一 benchmark 提升，而是提出了一个视频到操作技能迁移的可复用表征 primitive。它与 VLA、机器人 imitation learning、技能库构建都有交叉价值。

局限是系统仍依赖训练数据覆盖和 token 学到的动作抽象质量；在复杂接触、长程任务和多机器人形态上的泛化仍需要继续验证。