Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

智能体与自主科学突破级暂无讲解视频

收录解读

agent skills 可以外部调用，也可以内化进模型，但全外部化带来上下文开销，全内化又容易过拟合和知识冲突。

Skill0.5 提出介于两者之间的策略：general skills 通过 privileged distillation 内化，task-specific skills 通过 utilization 保持外部可控，并由 difficulty-aware router 对任务分层处理。

在 ALFWorld 和 WebShop 上，论文报告相比 memory-based 和 skill-based RL baselines 有更好的分布内与 OOD 泛化。

它值得收录，因为它把 agent skill acquisition 明确拆成 internalization 和 utilization 两条路径，对技能库、agent memory、RL 后训练和 OOD 泛化都有可复用启发。