UniVideo: Unified Understanding, Generation, and Editing for Videos

多模态基础模型突破级暂无讲解视频

发表时间: 2026-01-07
arXiv: 2510.08377

收录解读

这篇论文瞄准的是统一多模态模型从图像域走向视频域时最难跨过去的一步：能否在同一套框架里同时做视频理解、视频生成和视频编辑，而不是为每个任务各自训练一条模型链。作者认为，视频场景下时序一致性、复杂指令理解和多任务联合训练的难度，导致现有 unified multimodal model 大多还停留在图像层。

UniVideo 的核心设计是双流结构：用 MLLM 负责视觉理解和复杂多模态指令解析，用 Multimodal DiT 负责视频生成与编辑，从而把理解能力和视觉一致性生成能力拆开但又联动起来。基于这套结构，论文把 text/image-to-video generation、in-context video generation、in-context video editing 和视觉提示驱动生成统一到一个 instruction paradigm 里联合训练。

这篇值得收的关键不在于它又做了一个更大的视频模型，而在于它展示了 unified video model 的两个重要泛化方向：一是任务组合，能够把多种能力合进一条复合指令里；二是能力迁移，在没有显式训练 free-form video editing 的前提下，把大规模图像编辑能力转移到视频编辑上。这让它比普通 task-specific 视频生成论文更有长期外溢价值。

它没有更高一级，因为目前仍是 arXiv 预印本，且 unified video 这条线竞争非常激烈，是否能成为后续视频多模态系统的稳定基座还要看更广泛复现、后续模型跟进和社区采用。当前更稳的定位是高质量 breakthrough，而不是更高层级的范式条目。

链接

论文链接