Emu3.5: Native Multimodal Models are World Learners

多模态基础模型突破级暂无讲解视频

发表时间: 2025-10-30
arXiv: 2510.26583

收录解读

问题与背景：多模态世界模型需要从离散图文生成走向时空连续经验建模。Emu3.5 明确把长视频交错数据视为 next-state prediction 的训练载体，用统一 NTP 基础设施学习视觉和语言状态演化。

方法与新意：模型在超过 10T vision-language interleaved tokens 上端到端预训练，输入输出都支持交错图文；后训练加入大规模 RL，并用 Discrete Diffusion Adaptation 把 token-by-token 图像解码转成双向并行预测以提升推理效率。

收录意义：这篇适合进入 multimodal/world-model 主线，因为它把 native multimodal generation、长程视觉语言生成、X2I、文本富集图像生成和 embodied manipulation 放入同一个 next-state/world-learning 框架。它对视频世界模型、具身模拟和开放多模态生成都有参考价值。

局限：它仍是大模型系统报告，世界建模能力的物理一致性、可控性和第三方复现需要更强评测；Next State Prediction 的表述也仍依赖 tokenized sequence training，而非完整因果物理模型。因此按 breakthrough 收录。

链接

论文链接项目代码