A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

JEPA 与预测式世界模型突破级暂无讲解视频

收录解读

这篇论文针对生成式视频世界模型的计算瓶颈：现有方法通常在密集空间-时间 latent 上建模，未来每个 frame 仍对应大量空间 token，导致多未来采样和长时序预测开销很高。作者把问题重新表述为预测相邻视觉基础模型特征的变化，而不是重建完整未来帧。

方法上，DeltaTok 将相邻帧 VFM feature 的差分压缩成单个连续 delta token，DeltaWorld 则在这些 token 序列上做生成式建模。这样视频从空间-时间网格被压缩成纯时间序列，模型不需要对大量静态背景 token 重复建模，并能在一次前向中产生多个可能未来。

它值得收录，因为它提供了一个很清晰的世界模型接口转变：将未来生成放在冻结 VFM 的特征差分空间，并用单 token 表达帧间变化。论文报告相对现有生成式世界模型可少 35 倍参数、约 2000 倍 FLOPs，同时在多个指标上保持竞争力，这对高效生成世界模型和机器人/视频预测系统都有溢出价值。

主要限制是它仍主要评估视觉特征预测和短期未来生成，尚未证明在 action-conditioned planning、闭环控制或真实决策任务中能替代更完整的世界模型。delta token 对大位移、视角剧变和交互式物理状态的表达边界也仍需验证。