Beyond Language Modeling: An Exploration of Multimodal Pretraining

Shengbang Tong; David Fan; John Nguyen; Ellis Brown; Gaoyue Zhou; Shengyi Qian; Boyang Zheng; Théophane Vallaeys; Junlin Han; Rob Fergus; Naila Murray; Marjan Ghazvininejad; Mike Lewis; Nicolas Ballas; Amir Bar; Michael Rabbat; Jakob Verbeek; Luke Zettlemoyer; Koustuv Sinha; Yann LeCun; Saining Xie

多模态基础模型突破级有讲解视频

发表时间: 2026-03-03
arXiv: 2603.03276

收录解读

这篇论文研究的是“原生统一多模态预训练”如何从语言模型范式继续扩展，而不是把视觉模块后接到现成 LLM 上。作者在 Transfusion 框架下从零开始训练统一模型，用 next-token prediction 处理语言，用 diffusion / flow-style objective 处理视觉，并把文本、视频、图文对、动作条件视频放进同一个受控实验体系里，目标是隔离视觉表示、数据配比、架构和缩放规律各自的作用。

论文最有价值的贡献是把多模态预训练设计空间做成一组可操作的经验结论：RAE / semantic visual encoder 可以同时支撑视觉理解与生成，不必沿用“理解 encoder + 生成 VAE”的双表示；视觉数据和语言数据并非简单互相竞争，图像 caption 带来的文本分布偏移才是常见 modality tax 的主要来源；一般多模态训练还能自然诱导 world modeling，尤其是在视频和动作条件视频设置中体现为对动态世界的可预测建模能力。

这篇被收录在 multimodal foundation models 方向，因为它不是单点 benchmark 提升，而是为下一代统一模型给出一套设计蓝图：以 Transfusion 为统一训练接口，以 RAE 作为统一视觉 latent，以 MoE 调和视觉和语言的缩放不对称。IsoFLOP 分析显示视觉明显比语言更数据饥渴，而 MoE 可以在提供语言所需高容量的同时容纳视觉的数据密集需求，这一点对后续统一 VLM / world model 架构有长期参考价值。项目页：https://beyond-llms.github.io/

当前仍保持 `breakthrough` 而不是更高分级，原因是它主要是系统化实证与设计原则总结，并非单独提出一个已经被验证为新标准的模型族或训练范式。它的实验控制强、覆盖面广、方向性重要，但证据仍主要来自作者从零训练的受控规模模型；距离“重塑整个多模态路线”的 paradigm / disruptive 级别，还需要后续更大规模复现、开源模型或产业级采用来确认。

原始摘要与中文对照

中文对照翻译

视觉世界为基础模型超越语言提供了关键的轴线。尽管对这一方向的兴趣日益增长，但原生多模态模型的设计空间仍然不透明。我们通过受控的、从零开始的预训练实验提供了经验上的清晰性，在不受语言预训练干扰的情况下，分离出控制多模态预训练的因素。我们采用Transfusion框架，对语言使用下一词元预测，对视觉使用扩散模型，在包括文本、视频、图像-文本对乃至动作条件视频在内的多样化数据上进行训练。我们的实验得出了四个关键见解：(i) 表征自编码器（RAE）通过在视觉理解和生成方面均表现出色，提供了最优的统一视觉表征；(ii) 视觉和语言数据是互补的，并为下游能力产生协同效应；(iii) 统一的多模态预训练自然地导向世界建模，其能力从通用训练中涌现；(iv) 专家混合（MoE）在实现高效且有效的多模态扩展的同时，自然地诱导了模态专业化。通过IsoFLOP分析，我们计算了两种模态的扩展定律，并揭示了一个扩展不对称性：视觉比语言显著更数据饥渴。我们证明MoE架构通过提供语言所需的高模型容量，同时适应视觉的数据密集型特性，从而协调了这种扩展不对称性，为真正的统一多模态模型铺平了道路。

原始摘要

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

解读视频

视频观看页 B 站 YouTube

链接

论文链接项目