Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

Zile Wang; Zexiang Liu; Jiaxing Li; Kaichen Huang; Baixin Xu; Fei Kang; Mengyin An; Peiyu Wang; Biao Jiang; Yichen Wei; Yidan Xietian; Jiangbo Pei; Liang Hu; Boyi Jiang; Hua Xue; Zidong Wang; Haofeng Sun; Wei Li; Wanli Ouyang; Xianglong He; Yang Liu; Yangguang Li; Yahui Zhou

生成模型与世界模型突破级暂无讲解视频

发表时间: 2026-04-10
arXiv: 2604.08995

收录解读

这篇论文面向交互式视频世界模型的两个核心瓶颈：长时一致性和实时高分辨率生成。现有扩散式交互世界模型通常能生成短片段或低分辨率交互画面，但难以同时维持长时记忆、动作可控性和 720p 实时流式输出。

Matrix-Game 3.0 从数据、训练和推理三层改造系统：用 Unreal Engine 合成、AAA 游戏自动采集和真实视频增强构建 Video-Pose-Action-Prompt 数据；训练阶段通过残差建模、错误帧重注入和相机感知记忆检索提升长时自校正；推理阶段结合多段自回归蒸馏、DMD、量化和 VAE decoder 剪枝实现实时流式生成。

它值得收录，是因为它把“世界模型作为可交互生成系统”的问题推进到系统工程层面，明确展示了长时记忆检索、错误缓冲、自回归蒸馏和部署压缩如何协同。对于生成式世界模型、具身仿真数据、游戏环境生成和未来 VLA 训练环境，都提供了可复用的系统分解。

局限在于论文偏技术报告性质，核心训练数据引擎与大规模实验细节仍不如学术基准透明，且真实机器人/物理交互价值需要进一步验证。因此它作为生成世界模型系统突破收录，但不升为更高层级。

原始摘要与中文对照

中文对照翻译

随着交互式视频生成技术的进步，扩散模型作为世界模型已日益展现出其潜力。然而，现有方法在同时实现支持记忆的长期时间一致性和高分辨率实时生成方面仍面临挑战，这限制了它们在现实世界场景中的应用。为解决此问题，我们提出了Matrix-Game 3.0，一个记忆增强型交互式世界模型，专为720p实时长视频生成而设计。在Matrix-Game 2.0的基础上，我们对数据、模型和推理进行了系统性改进。首先，我们开发了一个升级的工业级无限数据引擎，该引擎集成了基于虚幻引擎的合成数据、从AAA游戏中大规模自动化收集的数据以及真实世界视频增强技术，以大规模生产高质量的视频-姿态-动作-提示四元组数据。其次，我们提出了一种用于长时程一致性的训练框架：通过建模预测残差并在训练期间重新注入不完美的生成帧，基础模型学习自我校正；同时，相机感知的记忆检索和注入使基础模型能够实现长时程时空一致性。第三，我们设计了一种基于分布匹配蒸馏（DMD）的多段自回归蒸馏策略，并结合模型量化和VAE解码器剪枝，以实现高效的实时推理。实验结果表明，Matrix-Game 3.0在使用5B模型时，在720p分辨率下实现了高达40 FPS的实时生成，同时在长达数分钟的序列中保持了稳定的记忆一致性。扩展到2×14B模型进一步提高了生成质量、动态性和泛化能力。我们的方法为实现工业级可部署的世界模型提供了一条实用途径。

原始摘要

With the advancement of interactive video generation, diffusion models have increasingly demonstrated their potential as world models. However, existing approaches still struggle to simultaneously achieve memory-enabled long-term temporal consistency and high-resolution real-time generation, limiting their applicability in real-world scenarios. To address this, we present Matrix-Game 3.0, a memory-augmented interactive world model designed for 720p real-time longform video generation. Building upon Matrix-Game 2.0, we introduce systematic improvements across data, model, and inference. First, we develop an upgraded industrial-scale infinite data engine that integrates Unreal Engine–based synthetic ∗ data, large-scale automated collection from AAA games, and real-world video augmentation to produce high-quality Video–Pose–Action–Prompt quadruplet data at scale. Second, we propose a training framework for long-horizon consistency: by modeling prediction residuals and re-injecting imperfect generated frames during training, the base model learns self-correction; meanwhile, camera-aware memory retrieval and injection enable the base model to achieve long horizon spatiotemporal consistency. Third, we design a multi-segment autoregressive distillation strategy based on Distribution Matching Distillation (DMD), combined with model quantization and VAE decoder pruning, to achieve efficient real-time inference. Experimental results show that Matrix-Game 3.0 achieves up to 40 FPS real-time generation at 720p resolution with a 5B model, while maintaining stable memory consistency over minute-long sequences. Scaling up to a 2×14B model further improves generation quality, dynamics, and generalization. Our approach provides a practical pathway toward industrial-scale deployable world models.

链接

论文链接