核心要点
- 问题/背景
- 这篇 Meta FAIR、NYU、Mila、Brown 等团队的 arXiv 论文处理 latent world model 控制中的核心瓶颈:单层世界模型在长时程规划中会遇到预测误差累积和搜索空间爆炸,导致非贪心任务很难靠直接 MPC 解决。
- 方法/机制
- 方法上,论文学习多个时间尺度的 latent world models,并在这些尺度之间做 hierarchical planning:高层模型负责粗粒度远期规划,低层模型负责细粒度动作执行,从而把长程任务分解成可搜索的子目标结构。
- 结果/证据
- 实验覆盖真实机器人 pick-and-place、push manipulation 和 maze navigation 等任务。论文报告在真实非贪心机器人任务中,仅给最终目标规格时取得 70% 成功率,而单层世界模型为 0%;在仿真任务中也提高成功率并最多减少 4x planning-time compute。
- 收录价值
- 收录价值在于它给 embodied AI/world model 提供了可复用规划抽象:不是只训练更大的模型,而是在 latent dynamics 上引入时间尺度层级,把世界模型从短程预测器推进到长程控制接口,对机器人规划、VLA/world model 和 inference-time planning 都有明确 spillover。
收录解读
这篇 Meta FAIR、NYU、Mila、Brown 等团队的 arXiv 论文处理 latent world model 控制中的核心瓶颈:单层世界模型在长时程规划中会遇到预测误差累积和搜索空间爆炸,导致非贪心任务很难靠直接 MPC 解决。
方法上,论文学习多个时间尺度的 latent world models,并在这些尺度之间做 hierarchical planning:高层模型负责粗粒度远期规划,低层模型负责细粒度动作执行,从而把长程任务分解成可搜索的子目标结构。
实验覆盖真实机器人 pick-and-place、push manipulation 和 maze navigation 等任务。论文报告在真实非贪心机器人任务中,仅给最终目标规格时取得 70% 成功率,而单层世界模型为 0%;在仿真任务中也提高成功率并最多减少 4x planning-time compute。
收录价值在于它给 embodied AI/world model 提供了可复用规划抽象:不是只训练更大的模型,而是在 latent dynamics 上引入时间尺度层级,把世界模型从短程预测器推进到长程控制接口,对机器人规划、VLA/world model 和 inference-time planning 都有明确 spillover。
论文摘要
Model predictive control with learned world models can generalize zero-shot but struggles with long-horizon control because prediction errors accumulate and the search space grows quickly. This paper learns latent world models at multiple temporal scales and performs hierarchical planning across them, reducing planning complexity while enabling long-horizon reasoning. The approach is modular across latent world-model architectures and is demonstrated on real-world non-greedy robotic pick-and-place and simulation tasks.