FlatAttention: Dataflow and Fabric Collectives Co-Optimization for Large Attention-Based Model Inference on Tile-Based Accelerators

AI 硬件与加速器突破级有讲解视频

发表时间: 2026-04-02
arXiv: 2604.02110

收录解读

随着 large-model inference 越来越向 tile-based、chip-scale 和 wafer-scale accelerator 迁移，attention 的瓶颈不再只是 kernel 算子本身，而是 tile fabric、HBM 访问和数据流组织方式的整体协同。单纯移植 GPU 上的 FlashAttention 思路，往往无法把新型 fabric 的潜力真正吃满。

FlatAttention 的关键新意，是把 dataflow 与 on-chip fabric collectives 一起联合优化。它针对现代 attention variants 设计新的 tile-based dataflow，显式利用网络 fabric 内置 collective primitives 去压低 HBM 访问，并在 tile-scale 系统上实现高利用率、较大端到端吞吐提升和更低 token latency。真正重要的不是某一个 kernel 数字，而是 attention inference 在这类架构上的组织方式被重写了。

它值得正式收录，因为这类工作符合本仓库对 AI hardware 的严格标准：不是窄设备结果，而是能够改变 AI inference system design 的 reusable co-design pattern。对未来 tile/wafer-scale AI compute 来说，attention 不只是算子实现问题，而是 fabric-aware dataflow problem，这一点被这篇论文讲得很清楚。

它没有升到更高一级，是因为当前证据仍主要集中在 tile-based accelerator family 和作者设定的系统条件下，普适性还需更多平台验证。现阶段它是一个强而清楚的 AI-hardware design pattern，但尚未成为跨架构默认答案。

解读视频

B 站 YouTube

链接

论文链接