Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

强化学习突破级暂无讲解视频

发表时间: 2026-03-26
arXiv: 2603.25685

收录解读

机器人世界模型一个长期痛点是：短期预测看起来可用，但一旦自回归 rollout 到多步，误差就会快速累积，视觉质量和任务可用性同步崩掉。这使大量 action-conditioned video world model 在真实规划链路里停留在“会演示、难部署”的阶段。

这篇论文的核心做法是把 post-training 目标改到模型自己的多步 rollout 上，而不只是对齐真实历史片段。作者用一个适配 diffusion world model 的对比式 RL 目标，在同一 rollout state 上生成并比较多个候选未来，对高保真轨迹进行强化，并配合多视角视觉保真奖励稳定训练。

这对 embodied / robotics 主线的价值很直接：它不再把世界模型质量只看成单步生成问题，而是明确当作长链 rollout 稳定性问题来优化。只要方法成立，后续世界模型用于规划、控制和仿真替代时的可靠性都会明显上移。

目前它仍是特定世界模型设定上的 post-training 方案，尚未证明能成为所有机器人世界模型的统一稳定化接口；奖励设计和多视角 fidelity 度量也有一定系统依赖。因此我给它 breakthrough，而不是更高。

链接

论文链接