多模态基础模型 突破级 暂无讲解视频
发表时间
2025-10-30
arXiv
2510.26583

收录解读

问题与背景:多模态世界模型需要从离散图文生成走向时空连续经验建模。Emu3.5 明确把长视频交错数据视为 next-state prediction 的训练载体,用统一 NTP 基础设施学习视觉和语言状态演化。

方法与新意:模型在超过 10T vision-language interleaved tokens 上端到端预训练,输入输出都支持交错图文;后训练加入大规模 RL,并用 Discrete Diffusion Adaptation 把 token-by-token 图像解码转成双向并行预测以提升推理效率。

收录意义:这篇适合进入 multimodal/world-model 主线,因为它把 native multimodal generation、长程视觉语言生成、X2I、文本富集图像生成和 embodied manipulation 放入同一个 next-state/world-learning 框架。它对视频世界模型、具身模拟和开放多模态生成都有参考价值。

局限:它仍是大模型系统报告,世界建模能力的物理一致性、可控性和第三方复现需要更强评测;Next State Prediction 的表述也仍依赖 tokenized sequence training,而非完整因果物理模型。因此按 breakthrough 收录。

链接