推理、记忆与推理时控制 突破级 有讲解视频
发表时间
2026-03-10
arXiv
2603.09576

收录解读

Continual learning 在 transformer 里通常通过 prompts、adapters 或 LoRA 这类参数高效适配来做,但这些方法往往默认可以多轮重复训练,在严格 online setting 下就会遇到明显限制。真正困难的地方,是样本流非平稳、可能只看一次,而且模型无法依赖显式 task id 来判断该激活哪一块表征子空间。

Routing without Forgetting 的核心贡献,是把 continual learning 重新表述成 routing 问题。它不再主要依赖持续梯度更新来慢慢形成 task specialization,而是在 transformer 层内加入受 Modern Hopfield Networks 启发的 associative retrieval layers,通过 free-energy 最小化在单次前向过程中生成 input-conditioned dynamic prompts。结果是 continual adaptation 从训练策略问题,变成了推理时的表征选择问题。

它值得正式收录,因为这类工作真正改变的是 continual adaptation 的接口:不是再加一种 PEFT recipe,而是把 memory-like retrieval 和 routing 直接嵌入 backbone,给 online continual learning 提供了更耐久的 architecture primitive。对本仓库而言,这条线和 routing、memory、online adaptation 都有明确交叉价值。

它没有升到更高一级,是因为当前验证仍主要集中在 class-incremental benchmark,外溢到更广语言、多模态和真实流式系统的证据还不够。现阶段它更像一条很强的 continual-learning architecture 路线,而不是已经统一替代现有适配范式的事实标准。

解读视频

链接