机器人与具身智能 突破级 暂无讲解视频
发表时间
2025-09-11
arXiv
2509.09372

核心要点

问题/背景
这篇论文针对 VLA 的训练成本问题:主流路线通常把大型 VLM 作为 policy backbone,再用机器人数据预训练桥接 perception 和 action,成本高且部署门槛高。
方法/机制
VLA-Adapter 先系统分析哪些 vision-language 条件真正有助于 action bridging,然后提出 lightweight Policy module with Bridge Attention,让策略模块自主选择并注入最有用的 VL 条件到动作空间。
结果/证据
核心结果是它用 0.5B 参数 backbone、不做机器人数据预训练,也能在仿真和真实机器人 benchmark 上达到强性能,并支持单张消费级 GPU 约 8 小时训练。
收录价值
收录价值在于它给 VLA 提供了一条小模型/低成本路线:不要把所有能力都压进大型 VLM 预训练,而是用结构化 adapter/policy bridge 把已有 VL 表征转成动作条件。这对低成本机器人部署和 VLA 架构设计都有直接外溢价值。
完整收录解读

这篇论文针对 VLA 的训练成本问题:主流路线通常把大型 VLM 作为 policy backbone,再用机器人数据预训练桥接 perception 和 action,成本高且部署门槛高。

VLA-Adapter 先系统分析哪些 vision-language 条件真正有助于 action bridging,然后提出 lightweight Policy module with Bridge Attention,让策略模块自主选择并注入最有用的 VL 条件到动作空间。

核心结果是它用 0.5B 参数 backbone、不做机器人数据预训练,也能在仿真和真实机器人 benchmark 上达到强性能,并支持单张消费级 GPU 约 8 小时训练。

收录价值在于它给 VLA 提供了一条小模型/低成本路线:不要把所有能力都压进大型 VLM 预训练,而是用结构化 adapter/policy bridge 把已有 VL 表征转成动作条件。这对低成本机器人部署和 VLA 架构设计都有直接外溢价值。

原始摘要与中文对照

中文对照翻译

VLA-Adapter:一种微型视觉-语言-动作模型的有效范式。VLA-Adapter研究了如何在不依赖大规模VLM骨干模型和机器人数据预训练的情况下,将视觉-语言表示桥接到动作。它分析了哪些视觉-语言条件对动作桥接至关重要,然后引入了一个带有Bridge Attention的轻量级策略模块,将有用的视觉-语言条件注入到动作生成中。该方法报告了使用0.5B骨干模型、无需机器人数据预训练、快速推理以及在约8小时内完成单消费级GPU训练的强大模拟和真实世界机器人结果。

原始摘要

VLA-Adapter studies how to bridge vision-language representations to action without relying on large-scale VLM backbones and robotic-data pretraining. It analyzes which VL conditions matter for action bridging, then introduces a lightweight policy module with Bridge Attention that injects useful visual-language conditions into action generation. The method reports strong simulated and real-world robotic results using a 0.5B backbone, no robotic-data pretraining, fast inference, and single-consumer-GPU training in about 8 hours.

相关论文

链接