生成建模与扩散 突破级 暂无讲解视频
发表时间
2026-05-21
arXiv
2605.20708

收录解读

这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream,指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。

作者提出 Diffusion-Adaptive Routing (DAR),用 learnable、timestep-adaptive、non-incremental 的历史子层输出聚合替换传统 residual addition。

在 ImageNet 256x256 上,DAR 改善 SiT-XL/2 的 FID,并用更少训练迭代达到基线收敛质量;叠加 REPA 后还带来早期训练加速。

它值得正式收录,因为它把 DiT 的 cross-layer routing 提升为一个独立可调的设计轴,对视觉生成 backbone、蒸馏和大规模 T2I fine-tuning 都有方法外溢价值。

链接