WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-17
arXiv: 2603.16871

收录解读

该文处理的是交互式游戏世界模型里的两个核心难点：动作控制不精确，以及长时程探索中的三维一致性漂移。现有方法通常把用户动作当成抽象条件信号，而没有把动作和世界几何之间通过相机位姿耦合这一事实直接建模。

WorldCam 的关键做法是把 camera pose 提升为统一几何表示。一方面，它把用户输入映射到物理一致的连续动作空间，并在 Lie algebra 中表示 6-DoF 相机位姿，再通过 camera embedder 注入生成模型，提升即时动作对齐；另一方面，它把全局位姿当作长程记忆索引，在回访场景时从历史观察中检索相关视图，以维持长时程导航下的空间一致性。作者还提供了带相机轨迹和文本描述的大规模真实人类游戏数据。

这篇论文值得收录，因为它不是简单的视频 world model 扩容，而是对 interactive gaming worlds 提出了更干净的几何统一方式。对仓库关注的 world generation / long-horizon multimodal generation 主线来说，camera pose 作为统一控制和记忆索引这一点有明确可迁移性。

它暂时仍是 breakthrough，因为场景集中在游戏世界，外部验证也主要是该任务族内的 controllability、视觉质量和 3D consistency。它是否能升到更高层级，要看这套 pose-grounded 记忆与生成机制能否迁移到更一般的 embodied/world simulation 任务。

链接

论文链接