ELT: Elastic Looped Transformers for Visual Generation

生成模型与世界模型突破级暂无讲解视频

发表时间: 2026-04-10
arXiv: 2604.09168

收录解读

这篇论文把 recurrent / weight-sharing transformer 思路引入视觉生成，以解决图像和视频生成模型参数量持续膨胀的问题。传统生成模型通常依赖一组互不共享的深层 transformer block，而 ELT 让同一组 transformer block 在 loop 中反复使用，以较少参数维持生成质量。

关键方法是 Elastic Looped Transformers 和 Intra-Loop Self Distillation（ILSD）。训练时用最大 loop 数作为 teacher configuration，并在单次训练中蒸馏中间 loop 的 student configuration，使不同深度/循环次数下的输出保持一致；同一个模型因此天然支持 any-time inference，在计算成本和生成质量之间动态折中。

它值得收录，是因为它给视觉生成模型提供了可复用的“循环深度 + 自蒸馏 + 弹性推理”接口，和近期 LLM 中递归深度扩展、YOCO-U 等方向形成跨模态呼应。论文在 ImageNet 与 UCF-101 上展示了参数显著减少下仍保持强生成质量，说明循环共享不只是压缩技巧，也是一种部署友好的生成架构模式。

局限在于实验仍集中在标准图像/视频生成基准，尚未证明在大规模文生视频、可控生成或世界模型训练中的 scaling 行为；循环结构的长程稳定性也需要进一步验证。因此它作为生成模型效率架构突破收录。

链接

论文链接