The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-05
arXiv: 2603.05498

收录解读

这篇论文研究 Transformer 中两个经常一起出现、但此前缺少统一解释的现象：`massive activations` 和 `attention sinks`。前者指少数 token 在某些通道上出现极端异常激活，后者指某些 token 会在许多注意力头中持续吸走注意力质量。作者的重点不是再次报告现象，而是解释它们为什么会共现，以及它们在模型里各自承担什么功能。

论文的核心结论是，这两种现象的共现很大程度上是现代 Transformer 架构的产物，尤其与 `pre-norm` 配置密切相关，但它们并不是同一个机制的两个名字。作者认为 massive activations 的作用是全局性的：它们会形成跨层持续存在的近常量隐藏表示，相当于模型里的隐式参数。attention sinks 的作用更局部：它们影响特定注意力头的输出，并把部分头偏向更短程的依赖模式。

这篇工作的价值在于，它把原本分散在量化、剪枝、KV-cache、长上下文推理等不同子领域里的观察，用一个更统一的机制视角串起来。对于理解为什么某些 token 在推理中异常重要、为什么 pre-norm 模型会出现特定病理行为，以及如何设计更健康的架构与缓存策略，这篇都有直接启发。

在分级上，我会把它放在机制澄清型的突破性论文里。它不是范式级路线重写，但对 Transformer 内部工作机制的解释质量很高，值得长期跟踪。

解读视频

B 站 YouTube

链接

论文链接