SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

智能体与自主科学突破级暂无讲解视频

收录解读

问题与背景：把 LLM 里的 token-level MoE 直接搬到自动驾驶 VLA 上会导致不稳定和安全退化，因为驾驶决策更依赖场景级结构而不是 token 级局部差异。

方法/新意：SAMoE-VLA 用 BEV 场景特征而非 token embedding 做 expert routing，并引入条件跨模态因果注意力，把 world state、语言意图和动作历史统一进 causal reasoning 流程。

意义/放在仓库中的位置：这篇论文属于 autonomous driving / VLA / MoE 主线。它的核心价值是把 MoE 的组织单位从 token 重构为 scene-level routing，这个观点具有明确方法学意义。

局限/为何不再升一级：尽管对自动驾驶很强，但仍主要影响自动驾驶 VLA 子方向，不足以升到更高一级。