JEPA 与预测式世界模型 突破级 暂无讲解视频
发表时间
2026-04-06
arXiv
2604.04913

收录解读

这篇论文针对生成式视频世界模型的计算瓶颈:现有方法通常在密集空间-时间 latent 上建模,未来每个 frame 仍对应大量空间 token,导致多未来采样和长时序预测开销很高。作者把问题重新表述为预测相邻视觉基础模型特征的变化,而不是重建完整未来帧。

方法上,DeltaTok 将相邻帧 VFM feature 的差分压缩成单个连续 delta token,DeltaWorld 则在这些 token 序列上做生成式建模。这样视频从空间-时间网格被压缩成纯时间序列,模型不需要对大量静态背景 token 重复建模,并能在一次前向中产生多个可能未来。

它值得收录,因为它提供了一个很清晰的世界模型接口转变:将未来生成放在冻结 VFM 的特征差分空间,并用单 token 表达帧间变化。论文报告相对现有生成式世界模型可少 35 倍参数、约 2000 倍 FLOPs,同时在多个指标上保持竞争力,这对高效生成世界模型和机器人/视频预测系统都有溢出价值。

主要限制是它仍主要评估视觉特征预测和短期未来生成,尚未证明在 action-conditioned planning、闭环控制或真实决策任务中能替代更完整的世界模型。delta token 对大位移、视角剧变和交互式物理状态的表达边界也仍需验证。

链接