强化学习
突破级
有讲解视频
收录解读
这篇 ICCV 2025 论文关注一个核心具身智能问题:如何把普通视频里的动作经验转化为机器人可学习、可迁移的操作表示。它不是只做视觉识别,而是把视频动作压缩成 latent motion token,作为视频、语言和机器人控制之间的桥接语言。
方法价值在于把动作学习的中间层显式化:motion token 既能从视频中抽取,又能服务于后续策略学习,减少了直接从像素到动作映射时的跨域鸿沟。对于利用互联网视频或人类演示扩展机器人技能库,这种表示接口有复用价值。
按本库标准,它值得收录在机器人/具身智能方向,因为贡献不是单一 benchmark 提升,而是提出了一个视频到操作技能迁移的可复用表征 primitive。它与 VLA、机器人 imitation learning、技能库构建都有交叉价值。
局限是系统仍依赖训练数据覆盖和 token 学到的动作抽象质量;在复杂接触、长程任务和多机器人形态上的泛化仍需要继续验证。