MultiWorld: Scalable Multi-Agent Multi-View Video World Modeling

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-21
arXiv: 2604.18564

收录解读

这篇论文抓住了视频 world model 当前一个真实瓶颈：大多数方法仍停留在单智能体单视角，无法表达现实系统中的多主体交互和多视角一致性。MultiWorld 的目标是把 action-conditioned video world model 扩展到 multi-agent、multi-view 的更一般环境。

方法上，作者引入 Multi-Agent Condition Module 处理多智能体可控性，用 Global State Encoder 约束不同视角之间的一致观察，并支持 agent 数量和视角数量的伸缩。实验覆盖多人游戏环境和多机器人操作任务，主打视频质量、动作跟随和多视角一致性。

它值得正式收录，因为 multi-agent / multi-view 是 world model 从 demo 走向真实系统不可回避的扩展方向。MultiWorld 提供的是一个通用建模问题和模块化解法，对多机器人、具身仿真、交互视频生成和多视角一致表示都有明显外溢。

它没有升到更高等级，是因为目前更像一条重要扩展路线，而不是单凭一篇论文就重塑世界模型范式；长期价值还取决于它在更开放环境、更长时程和更复杂交互中的表现。

链接

论文链接项目