Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-01-16
arXiv: 2601.11258

收录解读

这篇论文讨论的是 continual adaptation 中一个常见但经常被混淆的问题：模型通过 SFT 学到新知识，并不等于它具备了有效使用这些知识的能力。对本仓库来说，它切中的不是普通微调，而是测试后更新、技能注入和 parameter-efficient adaptation 之间的接口问题。

作者提出 Parametric Skill Transfer（PaST），核心观察是 SFT 更新和 RL 更新在参数空间中几乎正交。基于这个现象，论文把 RL 获得的 knowledge-manipulation skill 抽成一个可转移的 Skill Vector，再把它线性注入目标模型，从而在轻量知识更新之后补上真正的使用能力。

它值得收录，因为这不是常规 LoRA 配方微调，而是把 adaptation 拆成“知识写入”和“技能注入”两个阶段，给 continual learning、tool use 和 post-training 提供了更模块化的设计思路。对本仓库新增的 LoRA/PEFT/test-time 关注范围来说，这是一篇过线的结构性论文。

它没有升到更高等级，是因为虽然设计思路清晰且有跨任务收益，但现阶段仍然更像一个高质量 adaptation interface，而不是全面改写 continual learning 主流范式的条目。

链接

论文链接