ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2606.01619

核心要点

问题/背景: Agentic RL 可以持续优化 policy，但不一定沉淀可复用技能；而已有 skill-augmented RL 又常把 skill creation 和 policy optimization 解耦。
方法/机制: ReSkill 将 skill creation 放入 RL loop，使技能演化与正在优化的 policy 对齐，避免采用与当前策略冲突的技能。
结果/证据: 它值得收录，因为 agent capability accumulation 需要把可复用技能和 RL policy learning 统一起来。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

Agentic RL 可以持续优化 policy，但不一定沉淀可复用技能；而已有 skill-augmented RL 又常把 skill creation 和 policy optimization 解耦。

ReSkill 将 skill creation 放入 RL loop，使技能演化与正在优化的 policy 对齐，避免采用与当前策略冲突的技能。

它值得收录，因为 agent capability accumulation 需要把可复用技能和 RL policy learning 统一起来。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

ReSkill 是一种 RL-in-the-loop 技能创建框架，它将模块化技能演化与代理强化学习中的策略优化相结合。

英文原文

ReSkill is an RL-in-the-loop skill creation framework that reconciles modular skill evolution with policy optimization in agentic reinforcement learning.

链接

论文链接论文链接

核心要点

论文摘要

相关论文

链接