推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-03-31
arXiv
2604.00235

收录解读

长上下文 decoding 的核心瓶颈越来越不是 FLOPs,而是 KV cache 的 IO:每个新 token 都要重新读取不断膨胀的历史缓存。现有加速路线大多走压缩、选择或淘汰,但这些办法都会在 fidelity 或 accessibility 上做出让步,进而伤害 delayed recall 和长篇连续生成。

MAC-Attention 提出一种 fidelity-preserving、access-preserving 的替代路线:不删 KV,不压缩历史,而是复用先前对语义相近 recent queries 的 attention 计算结果。方法分为三个阶段:match 用 pre-RoPE L2 matching 在短局部窗口寻找可复用 query;amend 在匹配边界附近重新计算小带宽区域做修正;complete 再把修正后的结果与对 KV tail 的新计算结果通过数值稳定的方式融合。命中时,计算和带宽复杂度都与上下文长度脱钩。

这篇工作值得收录,因为它把 long-context inference acceleration 从“牺牲一部分信息换速度”推进到“显式复用 attention computation”这条更干净的路线。它模型无关,并且可与 IO-aware kernels、paged KV managers、MQA/GQA 叠加,对实际 serving 栈和长上下文解码基础设施都有明确复用价值。

它没有升到更高一级,是因为当前仍主要聚焦于 decoding acceleration 这条子问题,尚未证明 computation reuse 会成为更广泛 long-context inference 的默认接口。它是很强的系统方法,但还没到重写整条推理栈的程度。

链接