INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-08
arXiv: 2604.07209

收录解读

world simulator 的一个长期难点，是既要保住 spatial consistency，又要支持真实可交互的长时导航。很多视频生成方案能做短片段外观，但一到可导航、可交互、长时一致的动态场景，就会在几何结构和时空持久性上迅速失真。

INSPATIO-WORLD 的推进在于把这一问题做成 real-time 4D simulator：用 STAR 架构把时空自回归建模接到 interactive scene generation 上，并用 implicit spatiotemporal cache 维护全局一致的 latent world representation，再用 explicit spatial constraint module 把用户交互翻译成几何上合理的 camera trajectory。再加上 JDMD，用真实分布正则 synthetic-heavy training。

它值得正式收录，因为这不是普通视频生成，而是把 monocular reference video 变成可导航的 4D world simulation pipeline。对 world models、interactive scene generation 和未来 embodied simulation，这条路线有明显方法外溢。

它暂时不升到更高一级，原因在于当前主线仍偏视觉世界模拟，是否能外溢成更通用的 embodied/world-model interface 还需要后续验证。

链接

论文链接