系统、硬件与协同设计 突破级 暂无讲解视频
发表时间
2026-05-16
arXiv
2605.16839

收录解读

CompactAttention 针对长上下文 LLM serving 里的真实瓶颈:chunked prefill 已经常用,但很多稀疏注意力方法仍假设 one-shot prefill,到了小 query chunk + 长 KV cache 的实际场景会失去 kernel 效率或反复承担 pattern search 成本。

论文的关键机制是 Block-Union KV Selection:不把 2D block-sparse mask 直接当作 sparse kernel 的执行计划,而是把它转成 KV selection signal,再通过 Q-block union 和 intra-group union 构造 GQA-aware per-group KV block tables。

这个设计的系统价值在于适配 paged execution 约束,让被选中的 KV blocks 可以原地访问,避免 QUOKA 式显式 KV copy/compaction,同时用 dense FlashAttention 类 kernel 吃到更高吞吐。

它值得正式收录,因为它给长上下文推理系统提供了可复用 primitive:把稀疏注意力的选择模式和实际 kernel 执行解耦,在 chunked prefill serving 中用 block-table 接口桥接稀疏内存访问与 dense-kernel 计算效率。

链接