机器人与具身智能 突破级 暂无讲解视频
发表时间
2026-05-18
arXiv
2605.18746

收录解读

ESI-Bench 重新定义空间智能评测:agent 不应只被动处理给定观察,而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。

基准基于 OmniGibson,覆盖 10 类任务和 29 个子类,要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。

它值得正式收录,因为它把 embodied spatial intelligence 评测从 oracle observation 推向 perception-action loop,并暴露模型 premature commitment 和 metacognition 缺口。

它没有更高,是因为目前主要是 benchmark;如何训练 agent 形成主动证伪式探索策略还没有完全解决。

链接