Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-06
arXiv: 2603.06577

收录解读

当前大多数 multimodal large language models 仍默认依赖 autoregressive backbone，再在其上叠加不同模态编码器和生成头。这种范式虽然有效，但把多模态理解与生成统一到同一 backbone 的能力仍受限，尤其在 any-to-any setting 下更明显。

Omni-Diffusion 的核心贡献，是把 masked discrete diffusion 直接提升为 any-to-any multimodal backbone，用统一的离散 token joint distribution 同时处理文本、语音和图像的理解与生成。它不是简单地把 diffusion 用在某一个模态上，而是把 diffusion 变成跨模态统一接口，用同一类建模机制覆盖双模态与更复杂的多模态场景。

它值得正式收录，因为这类工作真正挑战的是 multimodal foundation model 的默认结构选择。对仓库来说，价值不只是性能对比，而是它提出了一个可能长期存在的替代 blueprint：多模态系统未必必须围绕 autoregressive language modeling 组织，diffusion 也可以成为理解与生成一体化的底座。

它没有升到更高一级，是因为当前证据仍主要是早期 benchmark 证明和架构可行性展示，距离形成社区默认范式还差生态采用和更广模态覆盖。现阶段更像一条非常强的新 backbone 路线，而不是已经完成范式替换的事实标准。

链接

论文链接