GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

强化学习突破级暂无讲解视频

发表时间: 2025-08-25
arXiv: 2508.17600

收录解读

机器人政策训练越来越依赖 learned world model 来降低真实交互成本，但传统 image-based world model 缺少稳定的三维几何表示，很难在机器人操作场景里同时保持空间一致性、物理合理性和可扩展的数据利用效率。这限制了它们作为训练基础设施的上限。

GWM 的核心思路是把机器人未来状态建模为受动作驱动的 Gaussian primitive 演化，并用 latent diffusion transformer 加 3D VAE 来做 scene-level future reconstruction。这样得到的 Gaussian World Model 既可以通过自监督未来预测增强 imitation learning agent 的视觉表征，也可以直接作为 neural simulator 支持 model-based reinforcement learning。论文报告其在模拟和真实环境中都能较准确预测动作条件下的未来场景，并训练出优于先前方法的策略。

它值得正式收录，因为它不是把 3D 表示机械地塞进 world model，而是明确提出一条可扩展的 Gaussian world-model 分支，把 3D scene representation、future prediction 和 robot policy learning 接到了一起。这对 embodied world model 和 robot data scaling 都有明显方法外溢。

它暂时不升到更高一级，原因在于这仍是机器人 world model 子方向内的强方法工作；虽然方向很对，但还需要更多跨任务、跨机器人和更长期的 adopted evidence 来确认它是否会成为默认技术路线。

链接

论文链接