Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-05
arXiv: 2603.05578

收录解读

自演化 agent 的一个关键能力，不只是会不会调用已有工具，而是能否从抽象任务需求中构造、修正并维护新的工具。现有评测大多仍把这件事压扁成最终任务分数，导致失败究竟来自接口设计、工具逻辑还是下游集成，经常无法拆解。

Tool-Genesis 的核心贡献，是把 tool creation 评测改造成诊断型 benchmark。它要求 agent 在没有预设 specification 的前提下，从任务需求自行构造工具，并把评估拆成 interface compliance、functional correctness 和 downstream utility 三个层次。这样一来，tool synthesis 就不再是黑盒 downstream 成败，而变成可以被精确定位和改进的能力结构。

它值得正式收录，因为这类 benchmark 补的是 agent capability acquisition 的真实缺口。对 self-evolving agents、tool marketplaces、skill systems 来说，缺的不是又一个最终分数表，而是能告诉研究者‘工具创建到底卡在哪’的评测框架；这一点决定了它比普通 benchmark 更有耐久价值。

它没有升到更高一级，是因为当前仍属于早期 benchmark 建设，生态默认采用、外部复用和基于该 benchmark 的方法潮流还未形成。现阶段它更像一个很强的 capability-diagnosis benchmark，而不是已经改写领域默认评测接口的事实标准。

链接

论文链接