核心要点
- 问题/背景
- 这篇论文针对 VLA 的训练成本问题:主流路线通常把大型 VLM 作为 policy backbone,再用机器人数据预训练桥接 perception 和 action,成本高且部署门槛高。
- 方法/机制
- VLA-Adapter 先系统分析哪些 vision-language 条件真正有助于 action bridging,然后提出 lightweight Policy module with Bridge Attention,让策略模块自主选择并注入最有用的 VL 条件到动作空间。
- 结果/证据
- 核心结果是它用 0.5B 参数 backbone、不做机器人数据预训练,也能在仿真和真实机器人 benchmark 上达到强性能,并支持单张消费级 GPU 约 8 小时训练。
- 收录价值
- 收录价值在于它给 VLA 提供了一条小模型/低成本路线:不要把所有能力都压进大型 VLM 预训练,而是用结构化 adapter/policy bridge 把已有 VL 表征转成动作条件。这对低成本机器人部署和 VLA 架构设计都有直接外溢价值。
原始摘要与中文对照
中文对照翻译
VLA-Adapter:一种微型视觉-语言-动作模型的有效范式。VLA-Adapter研究了如何在不依赖大规模VLM骨干模型和机器人数据预训练的情况下,将视觉-语言表示桥接到动作。它分析了哪些视觉-语言条件对动作桥接至关重要,然后引入了一个带有Bridge Attention的轻量级策略模块,将有用的视觉-语言条件注入到动作生成中。该方法报告了使用0.5B骨干模型、无需机器人数据预训练、快速推理以及在约8小时内完成单消费级GPU训练的强大模拟和真实世界机器人结果。
原始摘要
VLA-Adapter studies how to bridge vision-language representations to action without relying on large-scale VLM backbones and robotic-data pretraining. It analyzes which VL conditions matter for action bridging, then introduces a lightweight policy module with Bridge Attention that injects useful visual-language conditions into action generation. The method reports strong simulated and real-world robotic results using a 0.5B backbone, no robotic-data pretraining, fast inference, and single-consumer-GPU training in about 8 hours.