生成建模与扩散
突破级
暂无讲解视频
收录解读
这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream,指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。
作者提出 Diffusion-Adaptive Routing (DAR),用 learnable、timestep-adaptive、non-incremental 的历史子层输出聚合替换传统 residual addition。
在 ImageNet 256x256 上,DAR 改善 SiT-XL/2 的 FID,并用更少训练迭代达到基线收敛质量;叠加 REPA 后还带来早期训练加速。
它值得正式收录,因为它把 DiT 的 cross-layer routing 提升为一个独立可调的设计轴,对视觉生成 backbone、蒸馏和大规模 T2I fine-tuning 都有方法外溢价值。