智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-02-15
arXiv
2602.13977

收录解读

这篇论文解决的是 VLA 后训练里一个非常现实的问题:真实机器人上的 RL 太贵,而 learned world model 又常常在闭环 rollout 中积累误差,导致策略学会利用模拟器漏洞而不是真正完成任务。

WoVR 的核心是把 world model 当作“可靠模拟器”来设计和筛选,用它支持 VLA policy 的 RL post-training,而不是盲目把任何 imagined rollout 都当真。它关注的是 world model 作为 simulator 的可靠性而不是纯生成质量。

它在仓库中属于 VLA / world model / robotics 主线。和 World-VLA-Loop、PerpetualWonder、Drive-JEPA 这类工作一起构成“world model 真正走向控制”的子线。

它没有更高,是因为尽管方向关键,但目前仍是在机器人和 VLA 后训练子领域内推进,还不到改变更大范围方法论的程度。

链接