对应论文
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop
视频简介
ESI-Bench 重新定义空间智能评测:agent 不应只被动处理给定观察,而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。 基准基于 OmniGibson,覆盖 10 类任务和 29 个子类,要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。 它值得正式收录,因为它把 embodied spatial intelligence 评测从 oracle observation 推向 perception-action loop,并暴露模型 premature commitment 和 metacognition 缺口。 它没有更高,是因为目前主要是 benchmark;如何训练 agent 形成主动证伪式探索策略还没有完全解决。