多模态基础模型
突破级
有讲解视频
收录解读
自动驾驶里的 Vision-Language-Action 模型正在从显式文本 CoT 走向 latent reasoning,但标准 latent CoT 往往缺乏物理约束,容易形成语义与感知脱节的问题。本文关注的正是这个瓶颈:如何让 VLA 的“思考空间”真正带有时空和动力学结构。
作者提出 LaST-VLA,把推理从离散符号空间移到 latent spatio-temporal space,并通过双特征对齐,把 3D foundation model 的几何约束和 world model 的动态前瞻性蒸馏进 latent 推理空间。训练上先做 progressive SFT,再用 GRPO 强化安全与规则遵循。摘要中给出的结果是在 NAVSIM v1/v2 上达到新的高分。
这篇论文适合仓库的多模态 / world model / VLA 主线,也和 PerpetualWonder、World-VLA-Loop、Drive-JEPA 这一批条目互相补强。它代表的是自动驾驶里“latent spatio-temporal reasoning” 正在替代文本 CoT 的趋势。
它目前归为突破性而不是更高一级,原因是方向很强,但仍集中在自动驾驶 VLA 这一特定赛道,且证据主要来自 arXiv 与 benchmark 结果,尚未外溢到更广的通用 VLA 路线。