WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文解决的是 VLA 后训练里一个非常现实的问题：真实机器人上的 RL 太贵，而 learned world model 又常常在闭环 rollout 中积累误差，导致策略学会利用模拟器漏洞而不是真正完成任务。

WoVR 的核心是把 world model 当作“可靠模拟器”来设计和筛选，用它支持 VLA policy 的 RL post-training，而不是盲目把任何 imagined rollout 都当真。它关注的是 world model 作为 simulator 的可靠性而不是纯生成质量。

它在仓库中属于 VLA / world model / robotics 主线。和 World-VLA-Loop、PerpetualWonder、Drive-JEPA 这类工作一起构成“world model 真正走向控制”的子线。

它没有更高，是因为尽管方向关键，但目前仍是在机器人和 VLA 后训练子领域内推进，还不到改变更大范围方法论的程度。