多模态基础模型 突破级 暂无讲解视频
发表时间
2026-03-17
arXiv
2603.16871

收录解读

该文处理的是交互式游戏世界模型里的两个核心难点:动作控制不精确,以及长时程探索中的三维一致性漂移。现有方法通常把用户动作当成抽象条件信号,而没有把动作和世界几何之间通过相机位姿耦合这一事实直接建模。

WorldCam 的关键做法是把 camera pose 提升为统一几何表示。一方面,它把用户输入映射到物理一致的连续动作空间,并在 Lie algebra 中表示 6-DoF 相机位姿,再通过 camera embedder 注入生成模型,提升即时动作对齐;另一方面,它把全局位姿当作长程记忆索引,在回访场景时从历史观察中检索相关视图,以维持长时程导航下的空间一致性。作者还提供了带相机轨迹和文本描述的大规模真实人类游戏数据。

这篇论文值得收录,因为它不是简单的视频 world model 扩容,而是对 interactive gaming worlds 提出了更干净的几何统一方式。对仓库关注的 world generation / long-horizon multimodal generation 主线来说,camera pose 作为统一控制和记忆索引这一点有明确可迁移性。

它暂时仍是 breakthrough,因为场景集中在游戏世界,外部验证也主要是该任务族内的 controllability、视觉质量和 3D consistency。它是否能升到更高层级,要看这套 pose-grounded 记忆与生成机制能否迁移到更一般的 embodied/world simulation 任务。

链接