VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

Yihao Wang; Pengxiang Ding; Lingxiao Li; Can Cui; Zirui Ge; Xinyang Tong; Wenxuan Song; Han Zhao; Wei Zhao; Pengxu Hou; Siteng Huang; Yifan Tang; Wenhui Wang; Ru Zhang; Jianyi Liu; Donglin Wang

机器人与具身智能突破级暂无讲解视频

发表时间: 2025-09-11
arXiv: 2509.09372

核心要点

问题/背景: 这篇论文针对 VLA 的训练成本问题：主流路线通常把大型 VLM 作为 policy backbone，再用机器人数据预训练桥接 perception 和 action，成本高且部署门槛高。
方法/机制: VLA-Adapter 先系统分析哪些 vision-language 条件真正有助于 action bridging，然后提出 lightweight Policy module with Bridge Attention，让策略模块自主选择并注入最有用的 VL 条件到动作空间。
结果/证据: 核心结果是它用 0.5B 参数 backbone、不做机器人数据预训练，也能在仿真和真实机器人 benchmark 上达到强性能，并支持单张消费级 GPU 约 8 小时训练。
收录价值: 收录价值在于它给 VLA 提供了一条小模型/低成本路线：不要把所有能力都压进大型 VLM 预训练，而是用结构化 adapter/policy bridge 把已有 VL 表征转成动作条件。这对低成本机器人部署和 VLA 架构设计都有直接外溢价值。

完整收录解读

这篇论文针对 VLA 的训练成本问题：主流路线通常把大型 VLM 作为 policy backbone，再用机器人数据预训练桥接 perception 和 action，成本高且部署门槛高。

VLA-Adapter 先系统分析哪些 vision-language 条件真正有助于 action bridging，然后提出 lightweight Policy module with Bridge Attention，让策略模块自主选择并注入最有用的 VL 条件到动作空间。

核心结果是它用 0.5B 参数 backbone、不做机器人数据预训练，也能在仿真和真实机器人 benchmark 上达到强性能，并支持单张消费级 GPU 约 8 小时训练。

收录价值在于它给 VLA 提供了一条小模型/低成本路线：不要把所有能力都压进大型 VLM 预训练，而是用结构化 adapter/policy bridge 把已有 VL 表征转成动作条件。这对低成本机器人部署和 VLA 架构设计都有直接外溢价值。

原始摘要与中文对照

中文对照翻译

VLA-Adapter：一种微型视觉-语言-动作模型的有效范式。VLA-Adapter研究了如何在不依赖大规模VLM骨干模型和机器人数据预训练的情况下，将视觉-语言表示桥接到动作。它分析了哪些视觉-语言条件对动作桥接至关重要，然后引入了一个带有Bridge Attention的轻量级策略模块，将有用的视觉-语言条件注入到动作生成中。该方法报告了使用0.5B骨干模型、无需机器人数据预训练、快速推理以及在约8小时内完成单消费级GPU训练的强大模拟和真实世界机器人结果。

原始摘要

VLA-Adapter studies how to bridge vision-language representations to action without relying on large-scale VLM backbones and robotic-data pretraining. It analyzes which VL conditions matter for action bridging, then introduces a lightweight policy module with Bridge Attention that injects useful visual-language conditions into action generation. The method reports strong simulated and real-world robotic results using a 0.5B backbone, no robotic-data pretraining, fast inference, and single-consumer-GPU training in about 8 hours.

链接

论文链接论文链接项目代码代码代码

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接