LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

多模态基础模型突破级有讲解视频

发表时间: 2026-03-02
arXiv: 2603.01928

收录解读

自动驾驶里的 Vision-Language-Action 模型正在从显式文本 CoT 走向 latent reasoning，但标准 latent CoT 往往缺乏物理约束，容易形成语义与感知脱节的问题。本文关注的正是这个瓶颈：如何让 VLA 的“思考空间”真正带有时空和动力学结构。

作者提出 LaST-VLA，把推理从离散符号空间移到 latent spatio-temporal space，并通过双特征对齐，把 3D foundation model 的几何约束和 world model 的动态前瞻性蒸馏进 latent 推理空间。训练上先做 progressive SFT，再用 GRPO 强化安全与规则遵循。摘要中给出的结果是在 NAVSIM v1/v2 上达到新的高分。

这篇论文适合仓库的多模态 / world model / VLA 主线，也和 PerpetualWonder、World-VLA-Loop、Drive-JEPA 这一批条目互相补强。它代表的是自动驾驶里“latent spatio-temporal reasoning” 正在替代文本 CoT 的趋势。

它目前归为突破性而不是更高一级，原因是方向很强，但仍集中在自动驾驶 VLA 这一特定赛道，且证据主要来自 arXiv 与 benchmark 结果，尚未外溢到更广的通用 VLA 路线。

解读视频

B 站 YouTube

链接

论文链接