强化学习 突破级 暂无讲解视频
发表时间
2026-04-09
arXiv
2604.08168

收录解读

这篇论文处理的是机器人强化学习中的 value estimation 问题。VLA 模型已经能从大规模预训练获得操作能力,但真实长程任务仍受 partial observability 和 delayed feedback 影响;传统基于静态 VLM 的 value model 很难判断当前状态是否真的朝成功方向推进。

ViVa 的核心想法是把 value estimation 重写为 future anticipation:复用预训练视频生成模型的时空先验,让模型在当前多视角观测和机器人本体状态条件下,同时预测未来 proprioception 和当前 scalar value。价值估计因此不只看静态截图,而是被未来身体动态预测约束。

它值得收录,因为它给 robot RL/VLA 后训练提供了一个可复用接口:用视频生成模型作为 value model 的结构先验,而不是只把视频模型当世界模型或生成器。集成到 RECAP 后,ViVa 在真实 box assembly 中将成功率提升到 73%,并提高 throughput;定性分析显示它能更敏感地反映任务进度和异常动作。

它不是更高一级,因为当前最强实验证据集中在少数真实机器人任务和特定 RECAP/VLA 环境;视频生成 value model 在更多机器人、更多动作空间和更复杂安全约束下的泛化还需要证明。

链接