推理、记忆与推理时控制
突破级
有讲解视频
收录解读
这篇论文研究 Transformer 中两个经常一起出现、但此前缺少统一解释的现象:`massive activations` 和 `attention sinks`。前者指少数 token 在某些通道上出现极端异常激活,后者指某些 token 会在许多注意力头中持续吸走注意力质量。作者的重点不是再次报告现象,而是解释它们为什么会共现,以及它们在模型里各自承担什么功能。
论文的核心结论是,这两种现象的共现很大程度上是现代 Transformer 架构的产物,尤其与 `pre-norm` 配置密切相关,但它们并不是同一个机制的两个名字。作者认为 massive activations 的作用是全局性的:它们会形成跨层持续存在的近常量隐藏表示,相当于模型里的隐式参数。attention sinks 的作用更局部:它们影响特定注意力头的输出,并把部分头偏向更短程的依赖模式。
这篇工作的价值在于,它把原本分散在量化、剪枝、KV-cache、长上下文推理等不同子领域里的观察,用一个更统一的机制视角串起来。对于理解为什么某些 token 在推理中异常重要、为什么 pre-norm 模型会出现特定病理行为,以及如何设计更健康的架构与缓存策略,这篇都有直接启发。
在分级上,我会把它放在机制澄清型的突破性论文里。它不是范式级路线重写,但对 Transformer 内部工作机制的解释质量很高,值得长期跟踪。