多模态基础模型
突破级
暂无讲解视频
收录解读
OneVL 关注 latent reasoning/planning 在 VLA 场景中的效率和可解释性,试图避免显式长 CoT 在实时决策中的成本和脆弱性。
它的重要性在于把 latent planning、vision-language explanation 和 autonomous driving/VLA 任务结合起来,测试推理是否能以更紧凑的 latent 形式服务动作决策。
它值得正式收录,因为本库重视 multimodal reasoning、VLA pipeline 和 inference-time reasoning control。OneVL 提供了一个明确的 one-step latent planning 方向。
它没有更高,是因为 autonomous driving 场景的评测和真实部署要求很高,latent reasoning 的可审计性也仍是挑战。