VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

多模态基础模型突破级有讲解视频

发表时间: 2026-03-27
arXiv: 2603.26599

收录解读

大规模视频扩散模型已经能生成高质量画面，但几何一致性仍然是明显短板：镜头抖动、跨视角结构漂移和动态场景中的世界不一致会显著削弱其作为 world generation interface 的价值。此前方法要么改动生成器结构，要么在 RGB 空间做 geometry-aware reward，对动态场景支持弱且训练成本高。

VGGRPO 的关键新意是把 geometry reward 直接搬进 latent space。它先用 Latent Geometry Model 把视频扩散 latent 与具有 4D reconstruction 能力的几何基础模型接起来，从而能够不经反复 VAE 解码就直接从 latent 解出场景几何；随后在 latent space 做 Group Relative Policy Optimization，配合 camera motion smoothness reward 和 geometry reprojection consistency reward 两类奖励，对世界一致性进行 post-training。

它值得正式收录，因为这不是单纯多加一个视频奖励函数，而是在 generative video post-training 里提出了更高效、更可推广的 geometry-guided RL pattern：几何约束不必停留在 RGB 对齐，也不必局限于静态场景。这对 video world models、camera-consistent generation 和更广的 world-consistent generation 都有明确外溢。

它现在定为 breakthrough 而不是更高一级，因为仍处于 arXiv 早期阶段，影响范围首先集中在几何一致性和 camera stability，而不是全面重排视频生成路线；此外 latent geometry decoding 的稳健性和跨模型泛化还需要更多后续验证。

解读视频

B 站 YouTube

链接

论文链接