多模态基础模型
突破级
暂无讲解视频
收录解读
world simulator 的一个长期难点,是既要保住 spatial consistency,又要支持真实可交互的长时导航。很多视频生成方案能做短片段外观,但一到可导航、可交互、长时一致的动态场景,就会在几何结构和时空持久性上迅速失真。
INSPATIO-WORLD 的推进在于把这一问题做成 real-time 4D simulator:用 STAR 架构把时空自回归建模接到 interactive scene generation 上,并用 implicit spatiotemporal cache 维护全局一致的 latent world representation,再用 explicit spatial constraint module 把用户交互翻译成几何上合理的 camera trajectory。再加上 JDMD,用真实分布正则 synthetic-heavy training。
它值得正式收录,因为这不是普通视频生成,而是把 monocular reference video 变成可导航的 4D world simulation pipeline。对 world models、interactive scene generation 和未来 embodied simulation,这条路线有明显方法外溢。
它暂时不升到更高一级,原因在于当前主线仍偏视觉世界模拟,是否能外溢成更通用的 embodied/world-model interface 还需要后续验证。