Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

Chun-Hsiao Yeh; Shengyi Qian; Manchen Wang; Yi Ma; Joseph Tighe; Fanyi Xiao

多模态基础模型突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.30231

核心要点

问题/背景: 这篇论文针对 VLM 的 3D spatial reasoning 薄弱点：只靠 3D VQA 微调容易学到数据集偏差，引入专用 3D encoder 又不够灵活。
方法/机制: GASP 的核心是把几何先验直接注入 LLM transformer layers，用小型 correspondence head 做深层监督，并通过视频场景中的 ground-truth point correspondence 和 depth consistency 学习 2D view-invariance 与 3D ambiguity resolution。
结果/证据: 作者报告标准 VLM 的内部 correspondence matching accuracy 很低，常低于 5%；GASP 训练后 peak layer-wise correspondence 超过 70%，temporal robustness 超过 85%，并在 All-Angles Bench 和 VSI-Bench 上显著提升。
收录价值: 收录价值在于它把多模态几何推理从问答监督推进到内部空间对应关系训练，为 VLM 学习可泛化 3D priors 提供了可复用训练接口。

收录解读

这篇论文针对 VLM 的 3D spatial reasoning 薄弱点：只靠 3D VQA 微调容易学到数据集偏差，引入专用 3D encoder 又不够灵活。

GASP 的核心是把几何先验直接注入 LLM transformer layers，用小型 correspondence head 做深层监督，并通过视频场景中的 ground-truth point correspondence 和 depth consistency 学习 2D view-invariance 与 3D ambiguity resolution。

作者报告标准 VLM 的内部 correspondence matching accuracy 很低，常低于 5%；GASP 训练后 peak layer-wise correspondence 超过 70%，temporal robustness 超过 85%，并在 All-Angles Bench 和 VSI-Bench 上显著提升。

收录价值在于它把多模态几何推理从问答监督推进到内部空间对应关系训练，为 VLM 学习可泛化 3D priors 提供了可复用训练接口。

论文摘要

GASP injects fundamental 3D geometric priors into VLM transformer layers instead of relying on 3D VQA supervision. It uses a correspondence head with deep supervision, contrastive ground-truth point correspondence learning, and depth consistency to improve internal correspondence matching and downstream geometric reasoning without training on 3D VQA datasets.

链接

论文链接论文链接代码

核心要点

收录解读

论文摘要

相关论文

链接