智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文延续了 self-evolving agents 的关键路线:技能不只是 prompt library,而是需要被选择、使用、评估和蒸馏进 agent 行为。Skill1 把这些步骤放进统一 RL 框架。
它的复用价值在于把 skill-augmented agent 的几个断裂环节合并为一个训练问题。对于 WebShop、ALFWorld 和更广工具型 agent,技能系统如果不能闭环演化,很快会退化成静态模板库。
它值得正式收录,因为 agent capability acquisition 正在从 memory、tools 转向 skill lifecycle。Skill1 对这个 lifecycle 给出了更统一的训练接口。
它没有更高,是因为技能演化证据仍集中在有限环境,离开放世界持续增长还有距离。