OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-08
arXiv: 2604.07296

收录解读

这篇论文聚焦多模态模型的空间智能数据问题。很多现有空间任务数据集是单点式构造，覆盖特定任务或封闭 pipeline，导致模型很难系统学习距离、相对位置、多视角一致性和场景级空间推理。

OpenSpatial 把 3D bounding box 作为核心原语，构建了一个可扩展数据生成引擎，并围绕 Spatial Measurement、Spatial Relationship、Camera Perception、Multi-view Consistency 和 Scene-Aware Reasoning 五类任务组织数据层级。基于该引擎，作者生成 OpenSpatial-3M，并给出数据规模、任务组合和来源扩展对空间性能的系统分析。

它值得收录，因为它不是单个空间 benchmark，而是一个面向空间智能的开放数据生产工作流。论文展示用该数据训练的模型能在多个空间推理 benchmark 上取得平均约 19% 相对提升，并强调从静态数据集转向可持续数据引擎，这与仓库关注的可复用数据/评测基础设施一致。

主要限制是贡献重心在数据工程和合成 pipeline，模型方法本身不新；数据质量仍依赖 3D lifting、标注模板和任务设计的正确性。它是强基础设施型突破，但尚不足以称为空间智能范式改变。

链接

论文链接