收录解读
大规模视频扩散模型已经能生成高质量画面,但几何一致性仍然是明显短板:镜头抖动、跨视角结构漂移和动态场景中的世界不一致会显著削弱其作为 world generation interface 的价值。此前方法要么改动生成器结构,要么在 RGB 空间做 geometry-aware reward,对动态场景支持弱且训练成本高。
VGGRPO 的关键新意是把 geometry reward 直接搬进 latent space。它先用 Latent Geometry Model 把视频扩散 latent 与具有 4D reconstruction 能力的几何基础模型接起来,从而能够不经反复 VAE 解码就直接从 latent 解出场景几何;随后在 latent space 做 Group Relative Policy Optimization,配合 camera motion smoothness reward 和 geometry reprojection consistency reward 两类奖励,对世界一致性进行 post-training。
它值得正式收录,因为这不是单纯多加一个视频奖励函数,而是在 generative video post-training 里提出了更高效、更可推广的 geometry-guided RL pattern:几何约束不必停留在 RGB 对齐,也不必局限于静态场景。这对 video world models、camera-consistent generation 和更广的 world-consistent generation 都有明确外溢。
它现在定为 breakthrough 而不是更高一级,因为仍处于 arXiv 早期阶段,影响范围首先集中在几何一致性和 camera stability,而不是全面重排视频生成路线;此外 latent geometry decoding 的稳健性和跨模型泛化还需要更多后续验证。