PerpetualWonder: Long-Horizon Action-Conditioned 4D Scene Generation

多模态基础模型突破级暂无讲解视频

收录解读

这篇论文想解决的是单图出发的长时程 4D 场景生成问题。现有很多视频生成方法能生成“看起来像运动”的结果，但物理状态和视觉表示是分裂的，导致时间一长就失真，更谈不上真正的 action-conditioned 交互场景。

方法上，PerpetualWonder 把物理仿真和视频生成做成闭环：前向依赖物理状态推进，后向通过神经优化同时修正视觉外观和动力学一致性。它还支持多视角 refinement 和更长时间范围的 4D scene update，目标不是一段局部视频，而是一个可持续演化的场景表示。

这篇工作的意义在于，它把 4D 生成、世界模型和物理仿真三条线真正接起来了。对生成式建模来说，这种“physics in the loop”的做法比普通视频生成更接近具身智能和世界建模需求，因此很适合放进仓库主线。

我把它放在“突破性”。它非常值得跟，但目前仍主要属于 4D 生成 / 物理闭环方向里的强工作，还没有形成范式总攻。