智能体与自主科学
突破级
暂无讲解视频
收录解读
自演化 agent 的一个关键能力,不只是会不会调用已有工具,而是能否从抽象任务需求中构造、修正并维护新的工具。现有评测大多仍把这件事压扁成最终任务分数,导致失败究竟来自接口设计、工具逻辑还是下游集成,经常无法拆解。
Tool-Genesis 的核心贡献,是把 tool creation 评测改造成诊断型 benchmark。它要求 agent 在没有预设 specification 的前提下,从任务需求自行构造工具,并把评估拆成 interface compliance、functional correctness 和 downstream utility 三个层次。这样一来,tool synthesis 就不再是黑盒 downstream 成败,而变成可以被精确定位和改进的能力结构。
它值得正式收录,因为这类 benchmark 补的是 agent capability acquisition 的真实缺口。对 self-evolving agents、tool marketplaces、skill systems 来说,缺的不是又一个最终分数表,而是能告诉研究者‘工具创建到底卡在哪’的评测框架;这一点决定了它比普通 benchmark 更有耐久价值。
它没有升到更高一级,是因为当前仍属于早期 benchmark 建设,生态默认采用、外部复用和基于该 benchmark 的方法潮流还未形成。现阶段它更像一个很强的 capability-diagnosis benchmark,而不是已经改写领域默认评测接口的事实标准。