WildDet3D: Scaling Promptable 3D Detection in the Wild

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08626

收录解读

这篇论文面向单图像开放世界 3D 目标检测，目标是从 RGB 图像恢复物体的 3D 尺寸、位置和朝向，同时支持文本、点、框等不同 prompt，并在可用时利用深度线索。现有方法多绑定单一 prompt 类型，数据集也通常限制在少数类别和受控场景。

WildDet3D 的贡献有两部分：一是统一的 geometry-aware promptable 3D detection 架构，可接受 text/point/box prompts，并在推理时注入辅助 depth；二是 WildDet3D-Data，用已有 2D 标注生成候选 3D box，再经人工验证，形成超过 100 万图像、1.35 万类别的开放 3D 检测数据。

它值得收录，是因为它把开放世界 3D 感知推向更接近 spatial intelligence 基础能力的规模和接口：多 prompt、可用深度增强、跨数据集零样本评测。对 multimodal spatial grounding、机器人感知和 3D world model 的前端 perception 都有可复用价值。

局限在于它仍是 3D detection 任务，主要贡献在数据和检测架构，距离通用空间推理或具身决策还有距离。因此按 multimodal/spatial foundation capability 的突破性数据与方法收录，而不升为更高层级。

链接

论文链接项目项目