智能体与自主科学 突破级 有讲解视频
发表时间
2026-04-02
arXiv
2604.02268

收录解读

这篇论文关注一个很实际的 agent capability 问题:当前大量 agent skill 机制依赖推理时动态检索和注入 skill 文件,但这样会引入检索噪声、额外 token 开销,也意味着模型并没有真正学会技能,只是在运行时照着外部说明执行。作者因此把目标改成 skill internalization,即把技能从外部上下文迁入模型参数。

SKILL0 的核心方法是一个 in-context reinforcement learning curriculum。训练初期给予完整 skill context,随后动态评估每个 skill 文件对当前策略的 on-policy 帮助程度,并在逐步缩小的预算下持续撤去外部 skill 依赖,直到 agent 在 fully zero-shot 设置下完成任务。作者还把 skill 按类别离线分组,并结合交互历史构造成紧凑上下文,以训练模型掌握 tool invocation 和 multi-turn completion。

这篇工作的仓库价值在于,它不是再做一个 retrieval policy 小修小补,而是给 capability acquisition 提供了一个更强的研究方向:把 skill marketplace / skill retrieval 这条工程路线,与参数内化、持续训练和 agent RL 连接起来。对 agent memory、skill evolution、长期能力积累这些主线都有直接参考价值。

局限也很清楚:目前主要验证仍集中在 ALFWorld 和 Search-QA 这类 agent benchmark,外推到更复杂的企业工具链、真实软件环境和开放世界任务还缺少强证据。因此它更适合作为 `breakthrough` 收录,而不是更高一级。

解读视频

链接