Attention Residuals

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-16

收录解读

这份技术报告针对现代大模型里一个长期被默认接受但很少被单独重构的组件：残差连接。标准 PreNorm Transformer 会把所有前层输出用固定权重累加到当前层，随着深度增长，这会带来隐藏状态幅度膨胀、层贡献被稀释以及梯度分布不均的问题。Moonshot 团队把这个问题明确提出，并把它从训练稳定性的附属细节提升为一类值得独立设计的架构对象。

报告提出 Attention Residuals（AttnRes），用对前序层表示的输入依赖注意力聚合，替代固定的逐层单位权重累加。为了让这一机制能在大模型预训练中落地，作者又提出 Block AttnRes，把层划分为块，仅在块级表示上做选择性聚合，并结合缓存式通信与两阶段计算策略，降低内存和通信负担，使其成为标准 residual 的可替换实现。

这项工作的价值在于，它不是又一个局部训练技巧，而是直接重构了 Transformer 中默认不被质疑的一段深度聚合逻辑。报告给出了 scaling-law 级别实验、Kimi Linear 48B/3B 激活模型上的 1.4T token 预训练结果，以及科学推理、数学和代码等下游提升，说明这种改动具有明确的可迁移性和系统外溢价值。对仓库来说，它属于模型内部结构与训练稳定性主线里的高价值架构条目。

它没有更高一级，主要因为目前仍是官方技术报告而非经过更广泛社区复核的正式论文；同时，这项工作虽然有明显架构意义，但是否会成为跨家族 Transformer 的默认残差替代，还需要看后续复现、开源复训和外部采用速度。当前更稳妥的定位是高位 breakthrough，而不是更高层级的范式改写。

解读视频

B 站 YouTube

链接

论文链接项目