收录解读
随着 agent 从简单 tool call 走向长链任务执行,单一函数式工具已经不够,越来越多能力需要以 skill 的形式被组织成多文件、多步骤、带约束的能力包。现实问题在于,这类 skill 仍高度依赖人工 authoring,成本高,而且容易出现人类预期与模型实际使用方式不一致。
EvoSkills 的核心贡献,是把 self-evolving tools 的思路扩展到更复杂的 skills。它不只是让模型生成 skill,而是让 Skill Generator 与不依赖真实测试内容的 Surrogate Verifier 共同演化:前者持续改写多文件 skill 包,后者提供可操作的反馈信号,从而把复杂 skill 的构造、修正和泛化能力放进一个 co-evolutionary loop。
它值得正式收录,因为它切中的不是单次 benchmark 结果,而是 agent capability acquisition 的更长期问题:如果 skill 可以被自动生成、修正并跨模型泛化,那么 capability extension 就不再只是人工维护库,而会变成自演化系统的一部分。对本仓库已有的 skill discovery、memory skill、self-evolving agent 主线来说,这是一条明显延伸。
它没有升到更高一级,是因为当前验证仍主要集中在 SkillsBench 和若干 coding-agent 模型,外部生态的长期采用还没有形成。现阶段更像非常强的 skill-generation 方法路线,而不是已经成为默认 agent capability layer 的公共基础设施。