生成模型与世界模型

Introspective Diffusion Language Models

发表：2026-04-13 · 突破级

这篇论文切入 diffusion language model 的核心短板：扩散式并行生成虽然有吞吐潜力，但文本质量长期落后于自回归模型。作者把差距归因于 introspective consistency，也就是模型是否会接受自己此前生成的 token；AR 训练由于 causal masking 和 log...

Zero-shot World Models Are Developmentally Efficient Learners

发表：2026-04-11 · 突破级

这篇论文从儿童早期物理理解出发，提出 Zero-shot Visual World Model（ZWM）假说：儿童能从极少第一人称经验中形成深度、运动、对象连续性和交互等能力，说明有效 world model 可能不需要大量任务监督，而是依赖稀疏、时间因子化的预测和因果推断。 ZWM 的三条原则是：把 appe...

ELT: Elastic Looped Transformers for Visual Generation

发表：2026-04-10 · 突破级

这篇论文把 recurrent / weight-sharing transformer 思路引入视觉生成，以解决图像和视频生成模型参数量持续膨胀的问题。传统生成模型通常依赖一组互不共享的深层 transformer block，而 ELT 让同一组 transformer block 在 loop 中反复使用...

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

发表：2026-04-10 · 突破级

这篇论文面向交互式视频世界模型的两个核心瓶颈：长时一致性和实时高分辨率生成。现有扩散式交互世界模型通常能生成短片段或低分辨率交互画面，但难以同时维持长时记忆、动作可控性和 720p 实时流式输出。 Matrix-Game 3.0 从数据、训练和推理三层改造系统：用 Unreal Engine 合成、AAA 游戏...