智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-02-11
arXiv
2602.11291

收录解读

问题与背景 现有机器人世界模型很多偏视频生成或自然语言预测,虽然直观,但难以稳健支撑长时程 task and motion planning。传统符号 TAMP 又缺少和视觉世界的同步更新。H-WM 要解决的是这两类方法之间的断裂。

方法/新意 H-WM 把高层逻辑世界模型和低层视觉世界模型放进同一层级框架中,同时预测符号状态转移和视觉状态转移。这样高层可提供更稳定的中间规划指导,低层则保证视觉 grounding,不再让符号规划和视觉执行脱节。

意义/放在仓库中的位置 它适合放在 agentic planning / world model 主线,和 AutoNumerics、World-VLA-Loop、Causal-JEPA 这类强调结构化世界表示的工作相邻。对“如何把符号规划重新接回视觉世界模型”这个问题,它给了一个很直接的框架。

局限/为何不更高 论文较短,当前证据主要是机器人控制实验,尚不足以说明这种层级世界模型会成为更广泛 agent 系统的默认方案。它更像是一个方向正确、完成度不错的突破性候选。

链接