Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

机器人与具身智能突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.30280

收录解读

这篇论文面向 embodied foundation model 的核心碎片化问题：操控、导航、轨迹预测和不同机器人形态通常各自训练，难以跨任务和跨 embodiment 泛化。

Qwen-VLA 把视觉-语言理解扩展到连续动作和轨迹生成，用 DiT action decoder、统一 action-and-trajectory prediction 以及 embodiment-aware prompt conditioning，把机器人操控、视觉语言导航、人类第一视角演示和仿真数据放到同一个训练配方中。

它的可复用价值不只是一个更大的 VLA 模型，而是提出了如何在单一 VLA 接口下表达不同控制约定、机器人平台和任务族的系统模式。

它值得收录，因为 embodied AI 正在从任务专用策略转向跨环境、跨身体、跨任务的通用动作模型；Qwen-VLA 是这一方向的强系统化尝试，对机器人基础模型和 VLA 数据/动作接口都有明显外溢。

链接

论文链接代码