DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

强化学习突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2603.29844

收录解读

当前很多 end-to-end VLA 仍把预训练视觉语言模型当作通用 encoder，再直接映射到低层动作。这种做法虽然简单，但往往把高层语义决策和低层 motor control 混在一起，既浪费了 VLM 的高层推理潜力，也容易在端到端优化时破坏原本的语义表示。DIAL 针对的正是这个结构性问题。

论文提出一个 differentiable latent intent bottleneck，把高层意图和低层动作解耦。具体来说，VLM-based System-2 在原生特征空间里做 latent world modeling，预测 latent visual foresight 来显式编码 intent；随后一个更轻量的 System-1 policy 结合当前观测和 latent intent，通过 latent inverse dynamics 解码出具体动作。再加上先 decoupled warmup、后 joint optimization 的两阶段训练，整体优化稳定性比直接端到端映射更好。

这篇工作值得收录，因为它给 end-to-end VLA 引入了更清晰的系统分层：高层 latent intent 作为结构化瓶颈，既保留预训练语义，又让动作学习有明确接口。这种 intent/action decoupling 不只是提分技巧，而是对机器人控制中 world modeling 和 motor execution 如何耦合给出了更可复用的模式。

它没有升到更高一级，是因为当前验证仍主要集中在 RoboCasa 等具身操作基准上，外部 adoption 和跨平台泛化还需要时间证明。它已经是强方法推进，但是否会成为更广 VLA 默认结构，还要看后续复现与扩散。

链接

论文链接