Mixture-of-Depths Attention

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-03-16
arXiv: 2603.15619

收录解读

这篇论文处理的是深层 Transformer 一个很核心但长期被残差连接掩盖的问题：随着深度增加，浅层形成的有用信息会在反复残差更新中逐步被冲淡。标准做法默认每一层只通过当前层序列注意力和固定残差继续传播，而无法显式、动态地从更早的层里把有价值的表示重新读出来。作者试图把“跨层信息访问”从静态残差，升级成真正的数据依赖检索。

论文提出 Mixture-of-Depths Attention（MoDA），让每个注意力头不仅关注当前层的序列 KV，也能同时读取前置层的深度 KV，并在统一 softmax 里完成序列维度与深度维度的联合选择。方法上的亮点不只在架构本身，还在实现：作者通过兼容 FlashAttention 的布局、chunk-aware 与 group-aware 索引等设计，把原本会被非连续访存拖垮的跨层读取做到了接近 FlashAttention-2 的效率，从而让深度注意力不再只停留在纸面。

它值得正式收录，因为这项工作把“深度尺度上的信息路由”从概念层推进到了可训练、可扩展、可高效实现的基础算子。对于深层大模型、长上下文训练以及模型内部信息保真，这是一条很有持续性的路线。相比简单的 dense/residual 变体，MoDA 展示的是一种更通用的 depth-wise retrieval primitive，也与当前仓库关注的模型内部机制、长上下文和高效系统实现高度一致。

它还不到更高一级，原因在于目前证据仍主要集中在 700M 和 1.5B 量级及 400B token 训练设定，尚未证明 MoDA 在更大规模 industrial LLM 上会成为默认深度扩展范式。此外，它解决了信息稀释和跨层读取效率问题，但对极深网络下显存/带宽压力的长期上界仍需更多验证。

链接

论文链接