EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00392

收录解读

越来越多的 LLM agents 会在运行时自己生成工具，从 Python functions 到 API clients 都开始被动态创建和迭代。但主流评测几乎仍然只看下游任务是否完成，这会掩盖一个关键事实：即使任务成功率接近，生成出来的工具库也可能在复用性、冗余、回归稳定性和安全性上相差很大。

论文提出 EvolveTool-Bench，把 agent 生成的 tool library 当作一等软件制品来评估。基准覆盖专有数据格式、API orchestration 和数值计算三个需要真实执行工具的领域，同时定义 library-level 指标，如 reuse、redundancy、composition success、regression stability、safety，以及 per-tool 的 Tool Quality Score，用来衡量 correctness、robustness、generality 和 code quality。作者据此比较 code-level 与 strategy-level 的 tool evolution 系统，显示相近 task completion 会掩盖显著不同的 library health。

这篇工作值得收录，因为 tool use 已经从调用固定工具库转向生成、维护、演化工具库本身，而这篇论文第一次把“生成出来的工具软件质量”显式拉进 agent evaluation。对 tool-learning agents、capability extension、software-artifact governance 和长期工具生态，这是一条很有耐久性的评测补位。

它没有升到更高一级，是因为当前核心贡献仍然是 benchmark 与评测维度设计，而不是直接提出新的 tool-learning 主方法。它对方向发展很重要，但是否会成为该线的标准基准，还需要后续采用。

链接

论文链接