FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

科学发现旗舰工作突破级暂无讲解视频

发表时间: 2026-03-05
arXiv: 2603.05451

收录解读

这篇论文面向的是最新 GPU 代际中 attention kernel 的瓶颈问题。随着 Blackwell 一代硬件的 tensor core 吞吐远快于 shared memory、SFU 和 ALU，旧的注意力实现不再能靠简单调参逼近硬件上限。作者要解决的就是这种“硬件非对称扩展”下的 attention 效率问题。

方法上，FlashAttention-4 重新做了算法与 kernel pipeline 的协同设计。前向里重写 softmax pipeline，减少非 matmul 操作；反向里通过 2-CTA 等技巧降低 shared memory traffic 和 global atomic adds；整体用 CuTe-DSL 实现，目标是让 attention 在新硬件上重新接近理论吞吐上限。

它的重要性主要在基础设施层。对训练大模型、做长上下文推理、提升 B200/GB200 等高端 GPU 利用率，这类工作有直接现实价值。它不会改变模型能力范式，但会影响训练推理成本和系统栈的默认实现。

我把它放在“突破性”。原因是它是系统层的重要跃迁，但仍属于算法-内核-硬件协同设计这一基础设施路线，而不是范式级智能突破。

链接

论文链接