多模态基础模型
突破级
暂无讲解视频
收录解读
这篇论文想解决的是单图出发的长时程 4D 场景生成问题。现有很多视频生成方法能生成“看起来像运动”的结果,但物理状态和视觉表示是分裂的,导致时间一长就失真,更谈不上真正的 action-conditioned 交互场景。
方法上,PerpetualWonder 把物理仿真和视频生成做成闭环:前向依赖物理状态推进,后向通过神经优化同时修正视觉外观和动力学一致性。它还支持多视角 refinement 和更长时间范围的 4D scene update,目标不是一段局部视频,而是一个可持续演化的场景表示。
这篇工作的意义在于,它把 4D 生成、世界模型和物理仿真三条线真正接起来了。对生成式建模来说,这种“physics in the loop”的做法比普通视频生成更接近具身智能和世界建模需求,因此很适合放进仓库主线。
我把它放在“突破性”。它非常值得跟,但目前仍主要属于 4D 生成 / 物理闭环方向里的强工作,还没有形成范式总攻。