Boxer: Robust Lifting of Open-World 2D Bounding Boxes to 3D

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-06
arXiv: 2604.05212

收录解读

这篇论文处理开放世界 3D 目标定位中的一个核心数据鸿沟：2D 开放词汇检测已经能借助大规模网页图文数据识别大量类别，但 3D 边界框标注昂贵、稀缺且受传感器形态限制，导致端到端 3D 检测器难以覆盖真实世界物体。

Boxer 的核心设计是把语义识别和几何提升解耦。系统先用现成 2D open-vocabulary detector 产生候选框，再用 BoxerNet 结合带位姿图像和可选深度，将 2D 框提升为全局 7-DoF 3D bounding boxes。它用 median depth patch encoding 同时兼容稠密深度和稀疏 SLAM/SfM 点云，并引入 3D aleatoric uncertainty 与 2D 置信度联合排序。

它值得收录，因为它给开放世界空间理解提供了一个可复用工程模式：用 2D VLM 负责语义，用小型几何网络负责 3D lifting。论文在 122 万独立 3DBB 的混合训练集上训练，并在 egocentric sparse-depth 场景把 CuTR 的 mAP 从 0.010 提升到 0.532，这对 AR/机器人/具身空间感知都很有参考价值。

它不是更高一级，因为 Boxer 仍依赖上游 2D 检测、相机位姿和静态世界假设；动态物体、非长方体物体和复杂交互场景仍未解决。其贡献是强空间感知模块和数据解耦策略，而不是完整通用 3D 世界模型。

链接

论文链接