H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

智能体与自主科学突破级暂无讲解视频

收录解读

问题与背景现有机器人世界模型很多偏视频生成或自然语言预测，虽然直观，但难以稳健支撑长时程 task and motion planning。传统符号 TAMP 又缺少和视觉世界的同步更新。H-WM 要解决的是这两类方法之间的断裂。

方法/新意 H-WM 把高层逻辑世界模型和低层视觉世界模型放进同一层级框架中，同时预测符号状态转移和视觉状态转移。这样高层可提供更稳定的中间规划指导，低层则保证视觉 grounding，不再让符号规划和视觉执行脱节。

意义/放在仓库中的位置它适合放在 agentic planning / world model 主线，和 AutoNumerics、World-VLA-Loop、Causal-JEPA 这类强调结构化世界表示的工作相邻。对“如何把符号规划重新接回视觉世界模型”这个问题，它给了一个很直接的框架。

局限/为何不更高论文较短，当前证据主要是机器人控制实验，尚不足以说明这种层级世界模型会成为更广泛 agent 系统的默认方案。它更像是一个方向正确、完成度不错的突破性候选。