推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文讨论的是 continual adaptation 中一个常见但经常被混淆的问题:模型通过 SFT 学到新知识,并不等于它具备了有效使用这些知识的能力。对本仓库来说,它切中的不是普通微调,而是测试后更新、技能注入和 parameter-efficient adaptation 之间的接口问题。
作者提出 Parametric Skill Transfer(PaST),核心观察是 SFT 更新和 RL 更新在参数空间中几乎正交。基于这个现象,论文把 RL 获得的 knowledge-manipulation skill 抽成一个可转移的 Skill Vector,再把它线性注入目标模型,从而在轻量知识更新之后补上真正的使用能力。
它值得收录,因为这不是常规 LoRA 配方微调,而是把 adaptation 拆成“知识写入”和“技能注入”两个阶段,给 continual learning、tool use 和 post-training 提供了更模块化的设计思路。对本仓库新增的 LoRA/PEFT/test-time 关注范围来说,这是一篇过线的结构性论文。
它没有升到更高等级,是因为虽然设计思路清晰且有跨任务收益,但现阶段仍然更像一个高质量 adaptation interface,而不是全面改写 continual learning 主流范式的条目。