多模态基础模型 突破级 暂无讲解视频
发表时间
2026-02-04
arXiv
2602.04876

收录解读

这篇论文想解决的是单图出发的长时程 4D 场景生成问题。现有很多视频生成方法能生成“看起来像运动”的结果,但物理状态和视觉表示是分裂的,导致时间一长就失真,更谈不上真正的 action-conditioned 交互场景。

方法上,PerpetualWonder 把物理仿真和视频生成做成闭环:前向依赖物理状态推进,后向通过神经优化同时修正视觉外观和动力学一致性。它还支持多视角 refinement 和更长时间范围的 4D scene update,目标不是一段局部视频,而是一个可持续演化的场景表示。

这篇工作的意义在于,它把 4D 生成、世界模型和物理仿真三条线真正接起来了。对生成式建模来说,这种“physics in the loop”的做法比普通视频生成更接近具身智能和世界建模需求,因此很适合放进仓库主线。

我把它放在“突破性”。它非常值得跟,但目前仍主要属于 4D 生成 / 物理闭环方向里的强工作,还没有形成范式总攻。

链接