智能体与自主科学 突破级 有讲解视频
发表时间
2026-03-23
arXiv
2603.22455

收录解读

随着 agent skill 生态从几十个工具扩展到上万条 skills、plugins 和 prompts,真正的瓶颈已经不只是“agent 会不会调用工具”,而是“在巨大且高度同质的 skill 池里,系统怎样先找对 skill”。这篇论文把 skill routing 提升成一个独立问题来研究,而不是继续默认 name 和 description 足够代表技能能力。它面对的是现实里最常见但此前几乎没被系统研究的场景:大量重名、近义、实现细节不同的社区 skill 并存。

SkillRouter 的关键贡献有两层。第一层是经验性但很重要的结论:skill body,也就是完整实现文本,不是附属信息,而是决定 skill selection 的主要信号;拿掉 body 后,各种检索方法都会出现 29 到 44 个百分点的退化。第二层是方法与评测:作者基于约 8 万 skills 和 75 条 expert-verified queries 构建标准化 benchmark,并提出一个 0.6B encoder + 0.6B reranker 的两阶段 retrieve-and-rerank pipeline,在 consumer hardware 约束下仍能给出有竞争力的 routing 结果。

这篇工作值得正式收录,因为它不只是做了一个小型 tool retriever,而是明确改写了 agent skill system 的一个默认假设:progressive disclosure 下只看 metadata 做 selection 是不够的,routing 端必须利用 skill body。这个结论对 skill marketplace、capability extension、local-first agent tooling 和 memory-plus-skill library 设计都有直接复用价值,也为后续技能检索 benchmark 和 router 设计提供了清晰参照。

它目前仍是 breakthrough,而不是更高一级,因为 benchmark 规模虽已像样,但查询数量还不大,且主要围绕阿里系构建的 skill pool 和 under-review 设定。它已经证明了问题存在且 body 信息关键,但是否会成为跨生态的默认 skill routing 基础设施,还要看更多公开技能仓库、真实 agent loop 和 end-to-end task completion 的后续验证。

解读视频

链接