LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

机器人与具身智能突破级暂无讲解视频

发表时间: 2026-04-13
arXiv: 2604.11689

收录解读

VLA 模型受限于显式动作数据稀缺，而人类动作视频虽然规模巨大，却没有统一 action ontology 或机器人控制标签。latent action representation 被视为可能桥接视频和控制的接口，但此前缺少系统评估：它到底能否同时支持“做什么”的语义动作和“怎么做”的低层控制。

LARY 提出 Latent Action Representation Yielding Benchmark，统一评估 latent action 在高层语义动作和低层机器人控制上的表现。数据覆盖超过一百万视频、一千小时、151 类动作，并包含图像对与运动轨迹，跨不同 embodiment 和环境检验 action representation 的泛化。

它值得收录，因为它对具身智能的核心瓶颈给出了评测接口：如何从无标注人类视频中抽取可迁移到机器人控制的 latent actions。这个问题对 VLA 预训练、video-to-action alignment 和大规模机器人数据利用都有长期价值。

局限在于它主要是 benchmark 和数据框架，未直接提供最终 VLA 训练范式；latent action 是否能成为通用 action interface 还需要更多下游策略验证。

链接

论文链接