PlayWorld: Learning Robot World Models from Autonomous Play

强化学习突破级暂无讲解视频

发表时间: 2026-03-09
arXiv: 2603.09030

收录解读

这篇论文关注机器人 world model 训练里的一个关键瓶颈：现有视频世界模型虽然能从大规模机器人数据中学习，但在接触密集、长尾物体交互上仍然很难保持物理一致性，而且训练数据通常偏向人类成功示范。对本仓库来说，它不是单纯的视频生成改进，而是机器人世界模型的数据来源和训练闭环问题。

PlayWorld 的核心贡献是把 unsupervised robot self-play 变成 world model 的主要数据来源。作者提出一个完全自主的 pipeline，用机器人自主交互收集更丰富、更长尾的物理交互，再用这些经验训练动作条件视频世界模型，并进一步在世界模型内部做 RL，最终回到真实世界提升策略表现。

它值得正式收录，是因为这改变了 robot world model 的一个重要默认假设：不再主要依赖 success-biased human demonstrations，而是把 autonomous play 作为更可扩展、更贴近真实交互分布的数据引擎。对 embodied world models、robot data generation 和 sim-to-real style policy improvement 来说，这是一条清晰的新 workflow。

它没有升到更高等级，是因为虽然工作流价值明确，但当前影响仍主要集中在机器人世界模型这条子路线，还没有证明会成为更广泛多模态世界建模的统一基础范式。

链接

论文链接