推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-05-12
arXiv
2605.09608

收录解读

这篇论文处理的是持续后训练里的核心风险:模型学习新能力时会破坏旧能力,而这个问题不是简单调小学习率就能解决。它把 forgetting 解释为几何冲突。

几何视角有复用价值,因为它给 LoRA、continual post-training、domain adaptation 和 capability injection 提供了统一诊断语言。真正重要的不是单个任务分数,而是能力之间怎样发生干扰。

它值得正式收录,因为本库关注长期能力扩展、PEFT 和部署后适应;forgetting control 是这些路线能否工程化的基础问题。

它没有更高,是因为它仍需要在更多训练范式、模型规模和实际能力组合中验证。

链接