DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

智能体与自主科学突破级有讲解视频

发表时间: 2026-01-29
arXiv: 2601.22153

收录解读

这篇论文针对 VLA 在一个真实短板上的失效展开：静态操控上已经能做得不错，但一旦对象本身在运动，模型就需要更低时延的感知、更强的时间推理以及连续闭环控制能力，原有静态范式往往会失效。DynamicVLA 直接把目标放在 dynamic object manipulation，而不是继续在静态场景里刷泛化。

论文给出的核心设计有三块：一是更轻量的 0.4B VLA 主干，使用卷积式视觉编码器来降低时空编码成本；二是 Continuous Inference，让推理与执行可以重叠进行，减少控制链时延；三是 Latent-aware Action Streaming，通过对齐潜变量与动作流，把感知和执行之间的时间落差压小。除此之外，论文还补了一个关键缺口：从零构建 Dynamic Object Manipulation（DOM）benchmark，为这类任务提供专门的数据与评测基础。

它值得收录，因为这不是普通机器人 VLA 变体，而是明确切中一个静态 VLA 到真实世界部署之间的关键断层。动态物体操控需要的不是单次视觉理解，而是持续感知、持续推理和连续控制的组合。DynamicVLA 同时提出了模型结构、推理执行耦合方式和数据基准三方面方案，对具身智能和 real-time manipulation 路线都有明显外溢价值。

它没有升到更高一级，原因在于当前仍是一条很强的任务导向方法路线，而不是已经重排整个 VLA 主干或 embodied foundation model 框架的工作。它解决的是重要缺口，但还没有证明自己会成为这类系统的默认基础架构，因此以 breakthrough 收录更稳。

解读视频

B 站 YouTube

链接

论文链接