CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction

多模态基础模型突破级有讲解视频

发表时间: 2025-12-12
arXiv: 2512.11988

收录解读

该文处理的是一个对机器人感知、人机交互建模和 4D 场景理解都很关键的问题：如何仅从单目 RGB 视频中，在不知道物体模板、类别有限先验也不可靠的情况下，恢复人与物体在时间和空间上都一致的 4D 交互过程。过去的方法通常依赖真值模板，或者只能在少数封闭类别上工作，因此很难迁移到真实开放场景。

CARI4D 的核心贡献是把这一问题首次推进到 category-agnostic 设定。方法先整合多个 foundation model 对人体、物体和场景的独立预测，通过 pose hypothesis selection 得到稳健初始化；然后用 learned render-and-compare 进行联合细化，强制空间、时间与像素层面的对齐；最后再显式推理复杂接触关系，使结果更符合物理约束。这样一来，系统不再依赖固定物体模板，也能在未见类别上做零样本泛化。

这篇论文值得正式收录，因为它对 human-object interaction 的 4D 重建给出了一个更通用的开放类目方案，而不是又一个封闭 benchmark 内的几何优化器。对仓库主线来说，它同时连接了 4D 感知、foundation-model integration、接触推理和机器人可用的交互建模，对 embodied perception 和 robot learning 都有明显外溢价值。

它当前仍是 breakthrough 而不是更高一级，因为主要证据仍集中在单目 RGB 下的 HOI reconstruction 任务，本体上更偏感知层，离通用世界模型或大规模机器人数据引擎还有距离。它能否进一步上升，要看后续是否被广泛用作机器人操作、交互理解或 4D 数据构建的标准底座。

解读视频

B 站 YouTube

链接

论文链接