Compositional Planning with Jumpy World Models

强化学习突破级有讲解视频

发表时间: 2026-02-23
arXiv: 2602.19634

收录解读

智能体规划要跨出 primitive action 的细粒度控制，往往需要 temporal abstraction，但把预训练策略当作 temporally extended actions 后，长时预测误差会迅速积累。Jumpy world models 这篇工作把问题明确成“如何直接预测策略组合在多时间尺度上的状态占据分布”，而不是继续逐步 rollout。

方法上，作者学习多步 dynamics 的 predictive models，也就是 jumpy world models，用来刻画不同预训练策略在不同时间尺度下诱导的 state occupancies；并加入跨时间尺度 consistency objective，提升长时程预测稳定性。随后这些 generative predictions 被用于估计任意策略序列组合的价值，实现 compositional planning。

这篇论文对 world model / planning 方向有明确外溢，因为它展示了一种把 temporal abstraction、policy composition 和 long-horizon predictive modeling 结合起来的可复用接口。相比普通 world model 提分，它更像在重写“策略组合如何进入世界模型”的建模方式。

它还是 breakthrough，不是更高一级。原因是这条线虽然很有方法价值，但目前仍主要停留在特定 compositional planning 设定里；是否能成为更普遍的 world-model planning 范式，还需要更广实验支撑。

解读视频

B 站 YouTube

链接

论文链接