SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-18
arXiv: 2602.12670

收录解读

这篇论文处理的是 agent 系统里一个长期被忽视但实际很关键的问题：技能被抽取、封装和复用之后，究竟能否稳定泛化到不同任务，而不是只在演示案例里看起来可用。作者没有再做一个 agent，而是把问题显式转成 benchmark：如何系统评估 agent skills 在多域、多任务、多环境中的可靠性、迁移性和组合效果。

论文提出 SkillsBench，包含较大规模的任务与技能集合，并用可验证任务和明确的技能执行设定去隔离“技能本身是否有效”这一问题。它的价值不只是提供更多题目，而是把 agent 研究从端到端成功率，进一步拆成技能层的可测量对象，从而让技能抽取、技能选择和技能组合可以被更细粒度比较。

这项工作值得收录，因为 agent skills 很可能会成为长期 agent 架构的核心中间层，而 benchmark 的缺失一直让这一层难以科学比较。SkillsBench 对 agent tool-use、skill libraries、skill composition 和训练后能力诊断都有直接外溢价值，因此不是普通 benchmark 扩张，而是一个有结构意义的评测条目。

它还不到更高一级，原因是 benchmark 的长期价值取决于后续社区采用与扩展程度。目前它更像一个高质量、问题定义清楚的 benchmark breakthrough，而不是已经成为该方向默认标准的 disruptive 条目。

链接

论文链接