OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

多模态基础模型突破级暂无讲解视频

收录解读

OneVL 关注 latent reasoning/planning 在 VLA 场景中的效率和可解释性，试图避免显式长 CoT 在实时决策中的成本和脆弱性。

它的重要性在于把 latent planning、vision-language explanation 和 autonomous driving/VLA 任务结合起来，测试推理是否能以更紧凑的 latent 形式服务动作决策。

它值得正式收录，因为本库重视 multimodal reasoning、VLA pipeline 和 inference-time reasoning control。OneVL 提供了一个明确的 one-step latent planning 方向。

它没有更高，是因为 autonomous driving 场景的评测和真实部署要求很高，latent reasoning 的可审计性也仍是挑战。