CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

系统、硬件与协同设计突破级暂无讲解视频

发表时间: 2026-05-16
arXiv: 2605.16839

收录解读

CompactAttention 针对长上下文 LLM serving 里的真实瓶颈：chunked prefill 已经常用，但很多稀疏注意力方法仍假设 one-shot prefill，到了小 query chunk + 长 KV cache 的实际场景会失去 kernel 效率或反复承担 pattern search 成本。

论文的关键机制是 Block-Union KV Selection：不把 2D block-sparse mask 直接当作 sparse kernel 的执行计划，而是把它转成 KV selection signal，再通过 Q-block union 和 intra-group union 构造 GQA-aware per-group KV block tables。

这个设计的系统价值在于适配 paged execution 约束，让被选中的 KV blocks 可以原地访问，避免 QUOKA 式显式 KV copy/compaction，同时用 dense FlashAttention 类 kernel 吃到更高吞吐。

它值得正式收录，因为它给长上下文推理系统提供了可复用 primitive：把稀疏注意力的选择模式和实际 kernel 执行解耦，在 chunked prefill serving 中用 block-table 接口桥接稀疏内存访问与 dense-kernel 计算效率。

链接

论文链接代码