ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

强化学习突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08168

收录解读

这篇论文处理的是机器人强化学习中的 value estimation 问题。VLA 模型已经能从大规模预训练获得操作能力，但真实长程任务仍受 partial observability 和 delayed feedback 影响；传统基于静态 VLM 的 value model 很难判断当前状态是否真的朝成功方向推进。

ViVa 的核心想法是把 value estimation 重写为 future anticipation：复用预训练视频生成模型的时空先验，让模型在当前多视角观测和机器人本体状态条件下，同时预测未来 proprioception 和当前 scalar value。价值估计因此不只看静态截图，而是被未来身体动态预测约束。

它值得收录，因为它给 robot RL/VLA 后训练提供了一个可复用接口：用视频生成模型作为 value model 的结构先验，而不是只把视频模型当世界模型或生成器。集成到 RECAP 后，ViVa 在真实 box assembly 中将成功率提升到 73%，并提高 throughput；定性分析显示它能更敏感地反映任务进度和异常动作。

它不是更高一级，因为当前最强实验证据集中在少数真实机器人任务和特定 RECAP/VLA 环境；视频生成 value model 在更多机器人、更多动作空间和更复杂安全约束下的泛化还需要证明。

链接

论文链接