多模态基础模型
突破级
暂无讲解视频
收录解读
这篇论文面向单图像开放世界 3D 目标检测,目标是从 RGB 图像恢复物体的 3D 尺寸、位置和朝向,同时支持文本、点、框等不同 prompt,并在可用时利用深度线索。现有方法多绑定单一 prompt 类型,数据集也通常限制在少数类别和受控场景。
WildDet3D 的贡献有两部分:一是统一的 geometry-aware promptable 3D detection 架构,可接受 text/point/box prompts,并在推理时注入辅助 depth;二是 WildDet3D-Data,用已有 2D 标注生成候选 3D box,再经人工验证,形成超过 100 万图像、1.35 万类别的开放 3D 检测数据。
它值得收录,是因为它把开放世界 3D 感知推向更接近 spatial intelligence 基础能力的规模和接口:多 prompt、可用深度增强、跨数据集零样本评测。对 multimodal spatial grounding、机器人感知和 3D world model 的前端 perception 都有可复用价值。
局限在于它仍是 3D detection 任务,主要贡献在数据和检测架构,距离通用空间推理或具身决策还有距离。因此按 multimodal/spatial foundation capability 的突破性数据与方法收录,而不升为更高层级。