推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-01-16
arXiv
2601.11258

收录解读

这篇论文讨论的是 continual adaptation 中一个常见但经常被混淆的问题:模型通过 SFT 学到新知识,并不等于它具备了有效使用这些知识的能力。对本仓库来说,它切中的不是普通微调,而是测试后更新、技能注入和 parameter-efficient adaptation 之间的接口问题。

作者提出 Parametric Skill Transfer(PaST),核心观察是 SFT 更新和 RL 更新在参数空间中几乎正交。基于这个现象,论文把 RL 获得的 knowledge-manipulation skill 抽成一个可转移的 Skill Vector,再把它线性注入目标模型,从而在轻量知识更新之后补上真正的使用能力。

它值得收录,因为这不是常规 LoRA 配方微调,而是把 adaptation 拆成“知识写入”和“技能注入”两个阶段,给 continual learning、tool use 和 post-training 提供了更模块化的设计思路。对本仓库新增的 LoRA/PEFT/test-time 关注范围来说,这是一篇过线的结构性论文。

它没有升到更高等级,是因为虽然设计思路清晰且有跨任务收益,但现阶段仍然更像一个高质量 adaptation interface,而不是全面改写 continual learning 主流范式的条目。

链接