VLM3: Vision Language Models Are Native 3D Learners

多模态基础模型突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.30561

核心要点

问题/背景: VLM3 的核心判断是：标准 VLM 本身可以成为 3D learner，不必依赖大量 task-specific 3D expert vision 设计。
方法/机制: 方法把关键条件压缩为 focal length unification、text-based pixel reference、data mixture and scaling，用相对简单的训练接口让 VLM 覆盖 depth、pixel correspondence、camera pose 和 object-level 3D understanding。
结果/证据: 收录价值在于它改变了 3D spatial intelligence 的建模 framing：从专用几何模型转向统一 VLM 的文本化像素引用和可扩展数据混合，是 multimodal/robotics 空间理解的重要可复用方向。
收录价值: 风险与限制：当前仍是 arXiv 初版，核心结论需要跨模型、跨环境和真实部署场景的进一步复现；因此分级为 breakthrough，而不是 disruptive/paradigm。

完整收录解读

VLM3 的核心判断是：标准 VLM 本身可以成为 3D learner，不必依赖大量 task-specific 3D expert vision 设计。

方法把关键条件压缩为 focal length unification、text-based pixel reference、data mixture and scaling，用相对简单的训练接口让 VLM 覆盖 depth、pixel correspondence、camera pose 和 object-level 3D understanding。

收录价值在于它改变了 3D spatial intelligence 的建模 framing：从专用几何模型转向统一 VLM 的文本化像素引用和可扩展数据混合，是 multimodal/robotics 空间理解的重要可复用方向。

风险与限制：当前仍是 arXiv 初版，核心结论需要跨模型、跨环境和真实部署场景的进一步复现；因此分级为 breakthrough，而不是 disruptive/paradigm。

论文摘要

视觉语言模型可以通过焦距统一、基于文本的像素参考以及数据混合/缩放，转化为可扩展的3D学习器，而无需专门的3D架构、大量的增强或复杂的回归损失。VLM3报告了强大的深度估计收益，并支持像素对应关系、相机姿态估计和对象级别的3D理解，同时保持了标准VLM架构和基于文本的训练。

英文原文

Vision Language Models can be adapted into scalable 3D learners with focal-length unification, text-based pixel reference, and data mixture/scaling, without specialized 3D architectures, heavy augmentation, or complex regression losses. VLM3 reports strong depth estimation gains and supports pixel correspondence, camera pose estimation, and object-level 3D understanding while preserving standard VLM architectures and text-based training.

链接

论文链接论文链接代码相关链接

核心要点

论文摘要

相关论文

链接