生成模型与世界模型
突破级
暂无讲解视频
收录解读
这篇论文把 recurrent / weight-sharing transformer 思路引入视觉生成,以解决图像和视频生成模型参数量持续膨胀的问题。传统生成模型通常依赖一组互不共享的深层 transformer block,而 ELT 让同一组 transformer block 在 loop 中反复使用,以较少参数维持生成质量。
关键方法是 Elastic Looped Transformers 和 Intra-Loop Self Distillation(ILSD)。训练时用最大 loop 数作为 teacher configuration,并在单次训练中蒸馏中间 loop 的 student configuration,使不同深度/循环次数下的输出保持一致;同一个模型因此天然支持 any-time inference,在计算成本和生成质量之间动态折中。
它值得收录,是因为它给视觉生成模型提供了可复用的“循环深度 + 自蒸馏 + 弹性推理”接口,和近期 LLM 中递归深度扩展、YOCO-U 等方向形成跨模态呼应。论文在 ImageNet 与 UCF-101 上展示了参数显著减少下仍保持强生成质量,说明循环共享不只是压缩技巧,也是一种部署友好的生成架构模式。
局限在于实验仍集中在标准图像/视频生成基准,尚未证明在大规模文生视频、可控生成或世界模型训练中的 scaling 行为;循环结构的长程稳定性也需要进一步验证。因此它作为生成模型效率架构突破收录。