多模态基础模型 突破级 暂无讲解视频
发表时间
2026-04-06
arXiv
2604.05212

收录解读

这篇论文处理开放世界 3D 目标定位中的一个核心数据鸿沟:2D 开放词汇检测已经能借助大规模网页图文数据识别大量类别,但 3D 边界框标注昂贵、稀缺且受传感器形态限制,导致端到端 3D 检测器难以覆盖真实世界物体。

Boxer 的核心设计是把语义识别和几何提升解耦。系统先用现成 2D open-vocabulary detector 产生候选框,再用 BoxerNet 结合带位姿图像和可选深度,将 2D 框提升为全局 7-DoF 3D bounding boxes。它用 median depth patch encoding 同时兼容稠密深度和稀疏 SLAM/SfM 点云,并引入 3D aleatoric uncertainty 与 2D 置信度联合排序。

它值得收录,因为它给开放世界空间理解提供了一个可复用工程模式:用 2D VLM 负责语义,用小型几何网络负责 3D lifting。论文在 122 万独立 3DBB 的混合训练集上训练,并在 egocentric sparse-depth 场景把 CuTR 的 mAP 从 0.010 提升到 0.532,这对 AR/机器人/具身空间感知都很有参考价值。

它不是更高一级,因为 Boxer 仍依赖上游 2D 检测、相机位姿和静态世界假设;动态物体、非长方体物体和复杂交互场景仍未解决。其贡献是强空间感知模块和数据解耦策略,而不是完整通用 3D 世界模型。

链接