强化学习
突破级
有讲解视频
收录解读
智能体规划要跨出 primitive action 的细粒度控制,往往需要 temporal abstraction,但把预训练策略当作 temporally extended actions 后,长时预测误差会迅速积累。Jumpy world models 这篇工作把问题明确成“如何直接预测策略组合在多时间尺度上的状态占据分布”,而不是继续逐步 rollout。
方法上,作者学习多步 dynamics 的 predictive models,也就是 jumpy world models,用来刻画不同预训练策略在不同时间尺度下诱导的 state occupancies;并加入跨时间尺度 consistency objective,提升长时程预测稳定性。随后这些 generative predictions 被用于估计任意策略序列组合的价值,实现 compositional planning。
这篇论文对 world model / planning 方向有明确外溢,因为它展示了一种把 temporal abstraction、policy composition 和 long-horizon predictive modeling 结合起来的可复用接口。相比普通 world model 提分,它更像在重写“策略组合如何进入世界模型”的建模方式。
它还是 breakthrough,不是更高一级。原因是这条线虽然很有方法价值,但目前仍主要停留在特定 compositional planning 设定里;是否能成为更普遍的 world-model planning 范式,还需要更广实验支撑。