生成建模与扩散
突破级
暂无讲解视频
收录解读
这篇论文关注生成模型 scaling 中很硬的稳定性问题:Diffusion Transformer 继续加深时会出现均值主导的 collapse。它把这个失效模式命名并给出结构性处理。
Mean-Variance Split Residuals 的意义在于把超深 DiT 的训练稳定性变成架构问题,而不是只靠调参或训练技巧。1000-layer 这一设定说明它瞄准的是下一阶段扩展瓶颈。
它值得正式收录,因为生成模型的长期进展依赖更深、更稳、更可控的 backbone;这类残差结构如果成立,会成为可复用的 generative scaling primitive。
它没有更高,是因为需要看更多模型族、数据规模和下游生成质量是否稳定受益。