机器人与具身智能
突破级
暂无讲解视频
收录解读
VLA 模型受限于显式动作数据稀缺,而人类动作视频虽然规模巨大,却没有统一 action ontology 或机器人控制标签。latent action representation 被视为可能桥接视频和控制的接口,但此前缺少系统评估:它到底能否同时支持“做什么”的语义动作和“怎么做”的低层控制。
LARY 提出 Latent Action Representation Yielding Benchmark,统一评估 latent action 在高层语义动作和低层机器人控制上的表现。数据覆盖超过一百万视频、一千小时、151 类动作,并包含图像对与运动轨迹,跨不同 embodiment 和环境检验 action representation 的泛化。
它值得收录,因为它对具身智能的核心瓶颈给出了评测接口:如何从无标注人类视频中抽取可迁移到机器人控制的 latent actions。这个问题对 VLA 预训练、video-to-action alignment 和大规模机器人数据利用都有长期价值。
局限在于它主要是 benchmark 和数据框架,未直接提供最终 VLA 训练范式;latent action 是否能成为通用 action interface 还需要更多下游策略验证。