智能体与自主科学
突破级
暂无讲解视频
收录解读
agent skills 可以外部调用,也可以内化进模型,但全外部化带来上下文开销,全内化又容易过拟合和知识冲突。
Skill0.5 提出介于两者之间的策略:general skills 通过 privileged distillation 内化,task-specific skills 通过 utilization 保持外部可控,并由 difficulty-aware router 对任务分层处理。
在 ALFWorld 和 WebShop 上,论文报告相比 memory-based 和 skill-based RL baselines 有更好的分布内与 OOD 泛化。
它值得收录,因为它把 agent skill acquisition 明确拆成 internalization 和 utilization 两条路径,对技能库、agent memory、RL 后训练和 OOD 泛化都有可复用启发。