Introspective Diffusion Language Models

发表:2026-04-13 · 突破级

这篇论文切入 diffusion language model 的核心短板:扩散式并行生成虽然有吞吐潜力,但文本质量长期落后于自回归模型。作者把差距归因于 introspective consistency,也就是模型是否会接受自己此前生成的 token;AR 训练由于 causal masking 和 log...

Zero-shot World Models Are Developmentally Efficient Learners

发表:2026-04-11 · 突破级

这篇论文从儿童早期物理理解出发,提出 Zero-shot Visual World Model(ZWM)假说:儿童能从极少第一人称经验中形成深度、运动、对象连续性和交互等能力,说明有效 world model 可能不需要大量任务监督,而是依赖稀疏、时间因子化的预测和因果推断。 ZWM 的三条原则是:把 appe...

ELT: Elastic Looped Transformers for Visual Generation

发表:2026-04-10 · 突破级

这篇论文把 recurrent / weight-sharing transformer 思路引入视觉生成,以解决图像和视频生成模型参数量持续膨胀的问题。传统生成模型通常依赖一组互不共享的深层 transformer block,而 ELT 让同一组 transformer block 在 loop 中反复使用...

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

发表:2026-04-10 · 突破级

这篇论文面向交互式视频世界模型的两个核心瓶颈:长时一致性和实时高分辨率生成。现有扩散式交互世界模型通常能生成短片段或低分辨率交互画面,但难以同时维持长时记忆、动作可控性和 720p 实时流式输出。 Matrix-Game 3.0 从数据、训练和推理三层改造系统:用 Unreal Engine 合成、AAA 游戏...