FALCON: Fast-Weight Attention for Continual Learning

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-09

收录解读

这篇论文关注的是长上下文建模里一个很核心但长期处理得不够清楚的问题：当线性注意力、fast-weight memory 和 state space model 用固定状态压缩历史时，内部到底应该在时间上学习什么配对关系。作者指出，很多现有写法沿用了 Transformer 风格的当前 key 与当前 value 绑定，但在自回归预测下，真正因果对齐的内部训练对应该是前一步可用的特征去预测当前新揭示的 latent/value。

论文的主要贡献不是再发明一种完全新的记忆模块，而是把这种 next-latent pairing 明确化，并据此把状态更新重写成在线学习问题。作者进一步给出 FALCON-2 和 FALCON-3 两类更新规则：前者基于归一化最小均方更新并加入按列自适应增益和衰减，后者把局部目标推广到滑动窗口上的小批量更新，同时保持与 SSD 风格 chunk-parallel 训练兼容。这样，fast-weight memory、linear attention 与部分 SSM 之间的联系被放到更统一、也更可分析的框架中。

这篇论文值得收录，主要因为它属于仓库里比较看重的那类“强理论澄清”工作。它没有靠大规模工程堆料取胜，而是澄清了一个活跃方向中可能长期影响实现与解释的基础问题：内部快速记忆究竟在学习相似性关联，还是在学习因果上可用的下一步预测关系。对后续的线性注意力、Mamba/SSD 系模型、测试时训练型记忆模块以及长上下文 recurrent 架构，这个 framing 都有明显外溢价值。

它没有升到更高一级，原因也很明确。当前实证规模主要在约 124M–130M 参数、50B token 预算附近，语言建模结果是竞争力存在，但并不是全面压过最强基线；作者自己也把主结论定位为目标和更新规则的澄清，而不是已经证明一种新的通用最优主干架构。因此它更适合作为高价值的机制与训练目标论文收录，而不是范式级架构替代。

解读视频

B 站 YouTube

链接

论文链接项目