多模态基础模型
突破级
暂无讲解视频
核心要点
- 问题/背景
- VLM3 的核心判断是:标准 VLM 本身可以成为 3D learner,不必依赖大量 task-specific 3D expert vision 设计。
- 方法/机制
- 方法把关键条件压缩为 focal length unification、text-based pixel reference、data mixture and scaling,用相对简单的训练接口让 VLM 覆盖 depth、pixel correspondence、camera pose 和 object-level 3D understanding。
- 结果/证据
- 收录价值在于它改变了 3D spatial intelligence 的建模 framing:从专用几何模型转向统一 VLM 的文本化像素引用和可扩展数据混合,是 multimodal/robotics 空间理解的重要可复用方向。
- 收录价值
- 风险与限制:当前仍是 arXiv 初版,核心结论需要跨模型、跨环境和真实部署场景的进一步复现;因此分级为 breakthrough,而不是 disruptive/paradigm。
论文摘要
视觉语言模型可以通过焦距统一、基于文本的像素参考以及数据混合/缩放,转化为可扩展的3D学习器,而无需专门的3D架构、大量的增强或复杂的回归损失。VLM3报告了强大的深度估计收益,并支持像素对应关系、相机姿态估计和对象级别的3D理解,同时保持了标准VLM架构和基于文本的训练。
英文原文
Vision Language Models can be adapted into scalable 3D learners with focal-length unification, text-based pixel reference, and data mixture/scaling, without specialized 3D architectures, heavy augmentation, or complex regression losses. VLM3 reports strong depth estimation gains and supports pixel correspondence, camera pose estimation, and object-level 3D understanding while preserving standard VLM architectures and text-based training.