Solaris: Building a Multiplayer Video World Model in Minecraft

JEPA 与预测式世界模型突破级有讲解视频

发表时间: 2026-02-25
arXiv: 2602.22208

收录解读

这篇论文针对当前视频世界模型的一个明显缺口：大多数模型只处理单智能体视角，难以稳定模拟真实环境中的多智能体交互与多视角一致性。作者把问题直接推进到更困难也更现实的场景，在 Minecraft 中构建一个支持多玩家同步视频与动作采集的数据系统，并据此训练 multiplayer video world model。

方法上的关键不只是更大数据，而是围绕多视角一致性和多智能体交互重新设计训练与评测。论文提出分阶段训练流程，从 single-player 逐步过渡到 multiplayer modeling，结合 bidirectional、causal 和 self-forcing 训练；同时引入 Checkpointed Self Forcing 来降低长时程训练开销。最终不仅有模型，也有配套的数据系统和评测框架。

这项工作值得收录，因为它把视频世界模型从单视角生成推进到多智能体、多视角一致模拟，明显扩展了 world model 的能力边界。对多智能体模拟、具身智能、游戏环境建模以及未来 agent sandbox 都有直接外溢价值，因此它不是普通的视频生成论文，而是世界模型路线中的重要延展。

它还不到 disruptive，原因是当前证据主要建立在 Minecraft 这类受控环境里，距离更通用的开放世界多智能体世界模型还有明显差距。现阶段更稳的定位是一篇高质量 breakthrough，而不是已经重排整条 world model 主路线的工作。

解读视频

B 站 YouTube

链接

论文链接