minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

多模态生成与世界模型突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.30263

收录解读

高质量视频扩散模型距离可交互 world model 还差一条完整工程链：控制、因果 rollout、低延迟、蒸馏和流式推理需要同时解决。

minWM 给出从现有 bidirectional video foundation model 到 real-time interactive video world model 的全栈流程，包括 camera-control fine-tuning、AR diffusion training、causal ODE/consistency distillation、asymmetric DMD 和 streaming inference。

它的意义在于把 world model 构建从单篇模型技巧变成可复用开源 pipeline，可在不同 video backbone 上实例化和适配。

它值得收录，因为它提供了 interactive video world model 的操作系统式工作流，连接数据、训练、蒸馏、控制和部署，是视频 world model 从 demo 到系统的关键方向。

链接

论文链接代码