收录解读
当前很多所谓 frontier agent benchmark 仍严重依赖语言知识、互联网经验或任务模板匹配,因此很难真正区分“会调用很多工具”与“具备流体式新任务适应能力”之间的差别。ARC-AGI-3 直接把问题重新拉回 agentic intelligence 的核心:在没有明确指令、没有外部知识补偿的陌生交互环境里,agent 是否能通过探索、归纳、建模和规划快速找出可行解法。
ARC-AGI-3 是一个交互式 benchmark,任务由 novel、abstract、turn-based environments 组成,要求 agent 在环境中自己发现目标、理解动态、构建内部世界模型并规划动作序列。它延续 ARC-AGI-1/2 避开语言和外部知识的设计原则,只使用 core knowledge priors,并进一步引入以人类操作基线为锚点的效率型 scoring framework,从而把评价重点放在 novel-task adaptive efficiency,而不是静态答题正确率。
这篇工作值得收录,因为它不是再造一个更难的数据集,而是在重写 frontier agent evaluation 的目标函数。对 agent research、general intelligence benchmarking 和 system design,它明确提出:真正重要的不是会不会利用已知模板,而是在陌生环境中能否快速形成有效内部模型并完成任务。这种 framing 对后续 agent benchmark 和训练目标都会有持续影响。
它没有升到更高一级,是因为 ARC-AGI-3 目前仍主要是一条新 benchmark 路线,虽然问题定义非常强,但它是否会成为整个 agent intelligence 评测的默认坐标系,还需要后续更广泛采用与围绕它展开的方法生态。当前给 disruptive 更稳。