智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-11
arXiv
2605.10500

核心要点

问题/背景
这篇论文把 skill learning 本身抽象成一个 meta-skill:不是训练模型权重,而是让一个可加载的技能负责生成、部署和改进其他领域技能。
方法/机制
SkillEvolver 优化的是 skill 的 prose 和 code artifact,因此产物可以放进任意 protocol-compliant CLI agent,而不需要重新训练模型。
结果/证据
它和 trace distillation 的差别是先部署学到的技能,再从另一个 agent 使用该技能时遇到的失败中学习;并用 fresh-agent overfit audit 检查泄漏、静默绕过和部署技能特定失败。
收录价值
收录价值在于它把 agent capability extension 做成递归接口:技能不仅是能力载体,也可以是学习和改进技能的优化器。
完整收录解读

这篇论文把 skill learning 本身抽象成一个 meta-skill:不是训练模型权重,而是让一个可加载的技能负责生成、部署和改进其他领域技能。

SkillEvolver 优化的是 skill 的 prose 和 code artifact,因此产物可以放进任意 protocol-compliant CLI agent,而不需要重新训练模型。

它和 trace distillation 的差别是先部署学到的技能,再从另一个 agent 使用该技能时遇到的失败中学习;并用 fresh-agent overfit audit 检查泄漏、静默绕过和部署技能特定失败。

收录价值在于它把 agent capability extension 做成递归接口:技能不仅是能力载体,也可以是学习和改进技能的优化器。

论文摘要

SkillEvolver 将技能学习本身视为元技能。一个单一的元技能迭代地编写、部署和完善特定领域的技能,优化文本和代码产物而非模型权重。它从另一个代理在利用部署的技能时遇到的失败中学习,并使用新鲜代理过拟合审计来捕捉漏斗、静默绕过和特定技能的失败。

英文原文

SkillEvolver treats skill learning itself as a meta-skill. A single meta-skill iteratively authors, deploys, and refines domain-specific skills, optimizing prose and code artifacts rather than model weights. It learns from failures encountered by another agent while using the deployed skill and uses fresh-agent overfit audits to catch leakage, silent bypass, and skill-specific failures.

相关论文

链接