收录解读
越来越多的 LLM agents 会在运行时自己生成工具,从 Python functions 到 API clients 都开始被动态创建和迭代。但主流评测几乎仍然只看下游任务是否完成,这会掩盖一个关键事实:即使任务成功率接近,生成出来的工具库也可能在复用性、冗余、回归稳定性和安全性上相差很大。
论文提出 EvolveTool-Bench,把 agent 生成的 tool library 当作一等软件制品来评估。基准覆盖专有数据格式、API orchestration 和数值计算三个需要真实执行工具的领域,同时定义 library-level 指标,如 reuse、redundancy、composition success、regression stability、safety,以及 per-tool 的 Tool Quality Score,用来衡量 correctness、robustness、generality 和 code quality。作者据此比较 code-level 与 strategy-level 的 tool evolution 系统,显示相近 task completion 会掩盖显著不同的 library health。
这篇工作值得收录,因为 tool use 已经从调用固定工具库转向生成、维护、演化工具库本身,而这篇论文第一次把“生成出来的工具软件质量”显式拉进 agent evaluation。对 tool-learning agents、capability extension、software-artifact governance 和长期工具生态,这是一条很有耐久性的评测补位。
它没有升到更高一级,是因为当前核心贡献仍然是 benchmark 与评测维度设计,而不是直接提出新的 tool-learning 主方法。它对方向发展很重要,但是否会成为该线的标准基准,还需要后续采用。