O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-12
arXiv: 2603.12144

收录解读

这篇论文针对具身智能和自动驾驶场景里的一个核心问题：如何在 360 度、开放词汇、仅视觉输入的条件下，对三维场景进行统一的占据与语义重建。现有 occupancy prediction 方法通常依赖有限视角和封闭类别集合，因此很难支撑开放世界探索所需的全局、安全和语义一致的环境理解。

作者提出 O3N，一个端到端的全视觉开放词汇占据预测框架。方法层面包括三部分：用于 360 度体素建模的 Polar-spiral Mamba，以极坐标螺旋拓扑组织全景体素；在体素空间中联合几何与语义监督的 Occupancy Cost Aggregation；以及不依赖额外梯度对齐的 Natural Modality Alignment，用于统一像素、体素和文本三种表示。整体上，它试图把几何重建与开放词汇语义理解放进一个一致的表示空间。

这项工作值得收录，主要因为它不是一般的 3D benchmark 改进，而是在开放词汇 3D world modeling 上给出了一套完整的表示方案。对仓库来说，它落在多模态世界建模、具身感知和开放世界空间理解的交叉位置，具备明显的方法外溢潜力。只要实验结果可靠，它会是近期值得跟踪的 3D occupancy / world-model 方向强论文。

它还不到更高一级，原因是当前证据仍主要集中在 occupancy prediction 和相关 benchmark，尚未证明它会重排更广泛的世界模型或具身学习路线。更准确的定位是一篇强而清晰的多模态三维感知论文，而不是已经建立新范式的旗舰工作。

链接

论文链接