SkillOpt: Executive Strategy for Self-Evolving Agent Skills

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-22
arXiv: 2605.23904

收录解读

SkillOpt 针对 agent skill 的核心短板：当前 skill 往往是人工写、一次性生成或松散自修补，缺少像模型权重优化那样可控、可复现、可验证的训练流程。

论文把 skill 文档视为冻结 agent 的外部状态，由单独 optimizer model 根据 scored rollouts 生成受限的 add/delete/replace edits，并用 held-out validation score 严格控制是否接受更新。

系统引入 textual learning-rate budget、rejected-edit buffer 和 epoch-wise slow/meta update，使 skill 优化稳定，同时部署时不增加额外模型调用；实验覆盖六个 benchmark、七个目标模型和 direct chat/Codex/Claude Code 三种 harness。

它值得正式收录，因为它把 agent capability extension 从 prompt 工程推进到可训练的 text-space skill optimizer，对 skill marketplace、agent memory 和长期能力演化都有直接方法价值。

链接

论文链接项目代码代码