MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2604.00235

收录解读

长上下文 decoding 的核心瓶颈越来越不是 FLOPs，而是 KV cache 的 IO：每个新 token 都要重新读取不断膨胀的历史缓存。现有加速路线大多走压缩、选择或淘汰，但这些办法都会在 fidelity 或 accessibility 上做出让步，进而伤害 delayed recall 和长篇连续生成。

MAC-Attention 提出一种 fidelity-preserving、access-preserving 的替代路线：不删 KV，不压缩历史，而是复用先前对语义相近 recent queries 的 attention 计算结果。方法分为三个阶段：match 用 pre-RoPE L2 matching 在短局部窗口寻找可复用 query；amend 在匹配边界附近重新计算小带宽区域做修正；complete 再把修正后的结果与对 KV tail 的新计算结果通过数值稳定的方式融合。命中时，计算和带宽复杂度都与上下文长度脱钩。

这篇工作值得收录，因为它把 long-context inference acceleration 从“牺牲一部分信息换速度”推进到“显式复用 attention computation”这条更干净的路线。它模型无关，并且可与 IO-aware kernels、paged KV managers、MQA/GQA 叠加，对实际 serving 栈和长上下文解码基础设施都有明确复用价值。

它没有升到更高一级，是因为当前仍主要聚焦于 decoding acceleration 这条子问题，尚未证明 computation reuse 会成为更广泛 long-context inference 的默认接口。它是很强的系统方法，但还没到重写整条推理栈的程度。

链接

论文链接