智能体与自主科学
突破级
暂无讲解视频
收录解读
SkillOpt 针对 agent skill 的核心短板:当前 skill 往往是人工写、一次性生成或松散自修补,缺少像模型权重优化那样可控、可复现、可验证的训练流程。
论文把 skill 文档视为冻结 agent 的外部状态,由单独 optimizer model 根据 scored rollouts 生成受限的 add/delete/replace edits,并用 held-out validation score 严格控制是否接受更新。
系统引入 textual learning-rate budget、rejected-edit buffer 和 epoch-wise slow/meta update,使 skill 优化稳定,同时部署时不增加额外模型调用;实验覆盖六个 benchmark、七个目标模型和 direct chat/Codex/Claude Code 三种 harness。
它值得正式收录,因为它把 agent capability extension 从 prompt 工程推进到可训练的 text-space skill optimizer,对 skill marketplace、agent memory 和长期能力演化都有直接方法价值。