SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-23
arXiv: 2603.22455

收录解读

随着 agent skill 生态从几十个工具扩展到上万条 skills、plugins 和 prompts，真正的瓶颈已经不只是“agent 会不会调用工具”，而是“在巨大且高度同质的 skill 池里，系统怎样先找对 skill”。这篇论文把 skill routing 提升成一个独立问题来研究，而不是继续默认 name 和 description 足够代表技能能力。它面对的是现实里最常见但此前几乎没被系统研究的场景：大量重名、近义、实现细节不同的社区 skill 并存。

SkillRouter 的关键贡献有两层。第一层是经验性但很重要的结论：skill body，也就是完整实现文本，不是附属信息，而是决定 skill selection 的主要信号；拿掉 body 后，各种检索方法都会出现 29 到 44 个百分点的退化。第二层是方法与评测：作者基于约 8 万 skills 和 75 条 expert-verified queries 构建标准化 benchmark，并提出一个 0.6B encoder + 0.6B reranker 的两阶段 retrieve-and-rerank pipeline，在 consumer hardware 约束下仍能给出有竞争力的 routing 结果。

这篇工作值得正式收录，因为它不只是做了一个小型 tool retriever，而是明确改写了 agent skill system 的一个默认假设：progressive disclosure 下只看 metadata 做 selection 是不够的，routing 端必须利用 skill body。这个结论对 skill marketplace、capability extension、local-first agent tooling 和 memory-plus-skill library 设计都有直接复用价值，也为后续技能检索 benchmark 和 router 设计提供了清晰参照。

它目前仍是 breakthrough，而不是更高一级，因为 benchmark 规模虽已像样，但查询数量还不大，且主要围绕阿里系构建的 skill pool 和 under-review 设定。它已经证明了问题存在且 body 信息关键，但是否会成为跨生态的默认 skill routing 基础设施，还要看更多公开技能仓库、真实 agent loop 和 end-to-end task completion 的后续验证。

解读视频

B 站 YouTube

链接

论文链接