Grounding World Simulation Models in a Real-World Metropolis

JEPA 与预测式世界模型突破级暂无讲解视频

发表时间: 2026-03-16
arXiv: 2603.15583

收录解读

这篇论文处理的是 world model 方向里一个很关键但很少被真正解决的问题：如何让世界模拟不再停留在“看起来像真的”虚构环境，而是锚定到现实中真实存在的城市空间。以往视频世界模型大多生成视觉上合理但不对应真实地理结构的场景，而这篇工作把目标直接改成真实城市级别的 long-horizon simulation。

论文提出 Seoul World Model（SWM），把自回归视频生成与检索增强条件结合起来，用附近街景图像为生成过程提供现实锚点。围绕这种 retrieval-grounded world model，作者进一步处理了几个关键难点：参考图像与目标动态场景之间的时间错位、稀疏车辆采集带来的轨迹和视角缺口，以及长程生成时漂移累积。对应地，论文给出了 cross-temporal pairing、大规模合成轨迹数据、视角插值管线，以及用于长程稳定生成的 Virtual Lookahead Sink。

它值得收录，因为它把世界模型从封闭的模拟环境推进到真实城市尺度，并且不是只做静态地图条件视频，而是做带真实空间锚定、可长距离推进、还能支持多样相机运动和文本情境变化的城市级模拟。这对 world model、空间智能、具身导航和真实环境可控生成都有直接外溢价值。相比很多只在合成环境里验证的 world model 论文，这条线更接近未来可部署的真实环境模拟基础设施。

它没有升到更高一级，主要因为当前仍是 arXiv 论文，而且方法的主要贡献在于把 retrieval grounding、数据构造和长程稳定机制有效组合起来，而不是提出一种会统一所有世界模型的新基础范式。它是很强的现实世界 world simulation 工作，但更适合定为 breakthrough。

链接

论文链接