收录解读
这篇论文处理的是深层 Transformer 一个很核心但长期被残差连接掩盖的问题:随着深度增加,浅层形成的有用信息会在反复残差更新中逐步被冲淡。标准做法默认每一层只通过当前层序列注意力和固定残差继续传播,而无法显式、动态地从更早的层里把有价值的表示重新读出来。作者试图把“跨层信息访问”从静态残差,升级成真正的数据依赖检索。
论文提出 Mixture-of-Depths Attention(MoDA),让每个注意力头不仅关注当前层的序列 KV,也能同时读取前置层的深度 KV,并在统一 softmax 里完成序列维度与深度维度的联合选择。方法上的亮点不只在架构本身,还在实现:作者通过兼容 FlashAttention 的布局、chunk-aware 与 group-aware 索引等设计,把原本会被非连续访存拖垮的跨层读取做到了接近 FlashAttention-2 的效率,从而让深度注意力不再只停留在纸面。
它值得正式收录,因为这项工作把“深度尺度上的信息路由”从概念层推进到了可训练、可扩展、可高效实现的基础算子。对于深层大模型、长上下文训练以及模型内部信息保真,这是一条很有持续性的路线。相比简单的 dense/residual 变体,MoDA 展示的是一种更通用的 depth-wise retrieval primitive,也与当前仓库关注的模型内部机制、长上下文和高效系统实现高度一致。
它还不到更高一级,原因在于目前证据仍主要集中在 700M 和 1.5B 量级及 400B token 训练设定,尚未证明 MoDA 在更大规模 industrial LLM 上会成为默认深度扩展范式。此外,它解决了信息稀释和跨层读取效率问题,但对极深网络下显存/带宽压力的长期上界仍需更多验证。