Routing without Forgetting

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-10
arXiv: 2603.09576

收录解读

Continual learning 在 transformer 里通常通过 prompts、adapters 或 LoRA 这类参数高效适配来做，但这些方法往往默认可以多轮重复训练，在严格 online setting 下就会遇到明显限制。真正困难的地方，是样本流非平稳、可能只看一次，而且模型无法依赖显式 task id 来判断该激活哪一块表征子空间。

Routing without Forgetting 的核心贡献，是把 continual learning 重新表述成 routing 问题。它不再主要依赖持续梯度更新来慢慢形成 task specialization，而是在 transformer 层内加入受 Modern Hopfield Networks 启发的 associative retrieval layers，通过 free-energy 最小化在单次前向过程中生成 input-conditioned dynamic prompts。结果是 continual adaptation 从训练策略问题，变成了推理时的表征选择问题。

它值得正式收录，因为这类工作真正改变的是 continual adaptation 的接口：不是再加一种 PEFT recipe，而是把 memory-like retrieval 和 routing 直接嵌入 backbone，给 online continual learning 提供了更耐久的 architecture primitive。对本仓库而言，这条线和 routing、memory、online adaptation 都有明确交叉价值。

它没有升到更高一级，是因为当前验证仍主要集中在 class-incremental benchmark，外溢到更广语言、多模态和真实流式系统的证据还不够。现阶段它更像一条很强的 continual-learning architecture 路线，而不是已经统一替代现有适配范式的事实标准。

解读视频

B 站 YouTube

链接

论文链接