多模态基础模型 突破级 暂无讲解视频
发表时间
2026-04-21
arXiv
2604.18486

收录解读

OneVL 关注 latent reasoning/planning 在 VLA 场景中的效率和可解释性,试图避免显式长 CoT 在实时决策中的成本和脆弱性。

它的重要性在于把 latent planning、vision-language explanation 和 autonomous driving/VLA 任务结合起来,测试推理是否能以更紧凑的 latent 形式服务动作决策。

它值得正式收录,因为本库重视 multimodal reasoning、VLA pipeline 和 inference-time reasoning control。OneVL 提供了一个明确的 one-step latent planning 方向。

它没有更高,是因为 autonomous driving 场景的评测和真实部署要求很高,latent reasoning 的可审计性也仍是挑战。

链接