SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

智能体与自主科学突破级有讲解视频

发表时间: 2026-04-02
arXiv: 2604.02268

收录解读

这篇论文关注一个很实际的 agent capability 问题：当前大量 agent skill 机制依赖推理时动态检索和注入 skill 文件，但这样会引入检索噪声、额外 token 开销，也意味着模型并没有真正学会技能，只是在运行时照着外部说明执行。作者因此把目标改成 skill internalization，即把技能从外部上下文迁入模型参数。

SKILL0 的核心方法是一个 in-context reinforcement learning curriculum。训练初期给予完整 skill context，随后动态评估每个 skill 文件对当前策略的 on-policy 帮助程度，并在逐步缩小的预算下持续撤去外部 skill 依赖，直到 agent 在 fully zero-shot 设置下完成任务。作者还把 skill 按类别离线分组，并结合交互历史构造成紧凑上下文，以训练模型掌握 tool invocation 和 multi-turn completion。

这篇工作的仓库价值在于，它不是再做一个 retrieval policy 小修小补，而是给 capability acquisition 提供了一个更强的研究方向：把 skill marketplace / skill retrieval 这条工程路线，与参数内化、持续训练和 agent RL 连接起来。对 agent memory、skill evolution、长期能力积累这些主线都有直接参考价值。

局限也很清楚：目前主要验证仍集中在 ALFWorld 和 Search-QA 这类 agent benchmark，外推到更复杂的企业工具链、真实软件环境和开放世界任务还缺少强证据。因此它更适合作为 `breakthrough` 收录，而不是更高一级。

解读视频

B 站 YouTube

链接

论文链接