AI 硬件与加速器
突破级
暂无讲解视频
收录解读
问题与背景:Diffusion Transformers 在科学计算和高分辨率生成中需要多 GPU 推理,Ulysses sequence parallelism 可扩展但 all-to-all collective 成为主要延迟。
方法与新意:CoCoDiff 利用 Q/K/V 计算差异和相邻 denoising step 的时间冗余,提出 TAPA、V-First scheduling 和 V-Major selective communication,在 Aurora 超算上获得显著加速。
收录意义:这篇是 AI inference systems 的强方法,不是局部 kernel trick,而是围绕 DiT 分布式推理通信瓶颈设计的 runtime strategy,对大规模 diffusion/科学生成部署有复用价值。
局限:实验依赖 Aurora/Intel GPU tile 与特定 Ulysses 设置,跨硬件和通用云 GPU 栈上的收益需要验证。