AI 硬件与加速器 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.14561

收录解读

问题与背景:Diffusion Transformers 在科学计算和高分辨率生成中需要多 GPU 推理,Ulysses sequence parallelism 可扩展但 all-to-all collective 成为主要延迟。

方法与新意:CoCoDiff 利用 Q/K/V 计算差异和相邻 denoising step 的时间冗余,提出 TAPA、V-First scheduling 和 V-Major selective communication,在 Aurora 超算上获得显著加速。

收录意义:这篇是 AI inference systems 的强方法,不是局部 kernel trick,而是围绕 DiT 分布式推理通信瓶颈设计的 runtime strategy,对大规模 diffusion/科学生成部署有复用价值。

局限:实验依赖 Aurora/Intel GPU tile 与特定 Ulysses 设置,跨硬件和通用云 GPU 栈上的收益需要验证。

链接