强化学习 突破级 暂无讲解视频
发表时间
2026-03-31
arXiv
2603.29844

收录解读

当前很多 end-to-end VLA 仍把预训练视觉语言模型当作通用 encoder,再直接映射到低层动作。这种做法虽然简单,但往往把高层语义决策和低层 motor control 混在一起,既浪费了 VLM 的高层推理潜力,也容易在端到端优化时破坏原本的语义表示。DIAL 针对的正是这个结构性问题。

论文提出一个 differentiable latent intent bottleneck,把高层意图和低层动作解耦。具体来说,VLM-based System-2 在原生特征空间里做 latent world modeling,预测 latent visual foresight 来显式编码 intent;随后一个更轻量的 System-1 policy 结合当前观测和 latent intent,通过 latent inverse dynamics 解码出具体动作。再加上先 decoupled warmup、后 joint optimization 的两阶段训练,整体优化稳定性比直接端到端映射更好。

这篇工作值得收录,因为它给 end-to-end VLA 引入了更清晰的系统分层:高层 latent intent 作为结构化瓶颈,既保留预训练语义,又让动作学习有明确接口。这种 intent/action decoupling 不只是提分技巧,而是对机器人控制中 world modeling 和 motor execution 如何耦合给出了更可复用的模式。

它没有升到更高一级,是因为当前验证仍主要集中在 RoboCasa 等具身操作基准上,外部 adoption 和跨平台泛化还需要时间证明。它已经是强方法推进,但是否会成为更广 VLA 默认结构,还要看后续复现与扩散。

链接