多模态基础模型
突破级
暂无讲解视频
收录解读
当前大多数 multimodal large language models 仍默认依赖 autoregressive backbone,再在其上叠加不同模态编码器和生成头。这种范式虽然有效,但把多模态理解与生成统一到同一 backbone 的能力仍受限,尤其在 any-to-any setting 下更明显。
Omni-Diffusion 的核心贡献,是把 masked discrete diffusion 直接提升为 any-to-any multimodal backbone,用统一的离散 token joint distribution 同时处理文本、语音和图像的理解与生成。它不是简单地把 diffusion 用在某一个模态上,而是把 diffusion 变成跨模态统一接口,用同一类建模机制覆盖双模态与更复杂的多模态场景。
它值得正式收录,因为这类工作真正挑战的是 multimodal foundation model 的默认结构选择。对仓库来说,价值不只是性能对比,而是它提出了一个可能长期存在的替代 blueprint:多模态系统未必必须围绕 autoregressive language modeling 组织,diffusion 也可以成为理解与生成一体化的底座。
它没有升到更高一级,是因为当前证据仍主要是早期 benchmark 证明和架构可行性展示,距离形成社区默认范式还差生态采用和更广模态覆盖。现阶段更像一条非常强的新 backbone 路线,而不是已经完成范式替换的事实标准。