智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇 Findings EACL 2026 论文针对 MCP 生态中的工具编排能力提出五级评测。它不只测一次工具调用,而是分层评估 agent 发现工具、选择工具、组合工具、处理依赖和协调复杂流程的能力。
它的重要性在于 MCP 正在成为实际 agent 工具接入接口,围绕这个接口建立 benchmark 能直接服务工程系统评估。ETOM 把工具 orchestration 从泛泛能力拆成可测层级。
按本库标准,它值得收录在 agent 系统方向,因为它提供的是可复用 evaluation interface 和 tool-use 复杂度分层,而不是一个普通 prompt benchmark。
局限是 MCP 生态仍在快速变化,benchmark 的长期价值取决于是否持续覆盖真实工具、权限、安全和错误恢复场景。