Rethinking Cross-Layer Information Routing in Diffusion Transformers

生成建模与扩散突破级暂无讲解视频

收录解读

这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream，指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。

作者提出 Diffusion-Adaptive Routing (DAR)，用 learnable、timestep-adaptive、non-incremental 的历史子层输出聚合替换传统 residual addition。

在 ImageNet 256x256 上，DAR 改善 SiT-XL/2 的 FID，并用更少训练迭代达到基线收敛质量；叠加 REPA 后还带来早期训练加速。

它值得正式收录，因为它把 DiT 的 cross-layer routing 提升为一个独立可调的设计轴，对视觉生成 backbone、蒸馏和大规模 T2I fine-tuning 都有方法外溢价值。