Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation

强化学习突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2604.00265

收录解读

embodied navigation benchmark 往往只看最终是否到达目标，却很少把人与 agent 之间的协作互动本身作为独立能力来评估。对于 Collaborative Instance Object Navigation 这类任务，这会掩盖一个关键问题：agent 到底是真会问问题、会消解歧义，还是只是靠运气和强 policy 硬闯。

论文提出 QAsk-Nav，明确把 collaborative question asking 从 navigation policy 中拆出来做独立评测。基准提供轻量但可复现的问题提问协议、单独计分的交互指标、更现实的目标描述，以及 28,000 条高质量 reasoning/question-asking traces 供训练和分析。基于该 benchmark，作者还提出轻量统一模型 Light-CoNav，在 unseen objects 和 unseen environments 上优于既有 CoIN 方法，同时更小更快。

这篇工作值得收录，因为它把 embodied collaboration 从“附带现象”提升成一等评测对象。对 embodied agents、interactive navigation 和 language-conditioned robotics，这种把 interaction capability 独立量化的 benchmark 设计具有明显长期价值。

它没有升到更高一级，是因为当前仍集中在 CoIN 这一特定 embodied task family，尽管评测设计很对，但还未证明会扩展成更广泛的人机协作 embodied standard。

链接

论文链接