多模态生成与世界模型 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.30263

收录解读

高质量视频扩散模型距离可交互 world model 还差一条完整工程链:控制、因果 rollout、低延迟、蒸馏和流式推理需要同时解决。

minWM 给出从现有 bidirectional video foundation model 到 real-time interactive video world model 的全栈流程,包括 camera-control fine-tuning、AR diffusion training、causal ODE/consistency distillation、asymmetric DMD 和 streaming inference。

它的意义在于把 world model 构建从单篇模型技巧变成可复用开源 pipeline,可在不同 video backbone 上实例化和适配。

它值得收录,因为它提供了 interactive video world model 的操作系统式工作流,连接数据、训练、蒸馏、控制和部署,是视频 world model 从 demo 到系统的关键方向。

链接