CoCoDiff: Optimizing Collective Communications for Distributed Diffusion Transformer Inference Under Ulysses Sequence Parallelism

AI 硬件与加速器突破级暂无讲解视频

收录解读

问题与背景：Diffusion Transformers 在科学计算和高分辨率生成中需要多 GPU 推理，Ulysses sequence parallelism 可扩展但 all-to-all collective 成为主要延迟。

方法与新意：CoCoDiff 利用 Q/K/V 计算差异和相邻 denoising step 的时间冗余，提出 TAPA、V-First scheduling 和 V-Major selective communication，在 Aurora 超算上获得显著加速。

收录意义：这篇是 AI inference systems 的强方法，不是局部 kernel trick，而是围绕 DiT 分布式推理通信瓶颈设计的 runtime strategy，对大规模 diffusion/科学生成部署有复用价值。

局限：实验依赖 Aurora/Intel GPU tile 与特定 Ulysses 设置，跨硬件和通用云 GPU 栈上的收益需要验证。