JEPA 与预测式世界模型
颠覆级
有讲解视频
收录解读
这篇论文是 JEPA 路线里少数真正往 object-centric world model 推进的工作。它不是继续做 patch-level 的 latent prediction,而是把预测单位提升到对象级别,并通过 object-level masking 让模型必须利用其他对象的状态去推断被遮蔽对象的未来表示。
方法上,作者提出 `Causal-JEPA`。核心做法是把视频场景表示成对象槽位,再在训练时对部分对象进行干预式遮蔽。模型需要根据剩余对象和时序上下文预测目标对象的 latent trajectory。这样的训练目标会显式鼓励模型学习对象之间的相互作用,而不是只记住局部纹理或短期运动模式。作者把这种效果解释为一种因果导向的归纳偏置。
这篇工作的价值在于,它把 JEPA 从通用表征学习进一步推到“可用于预测、反事实推理和控制”的世界模型方向。摘要里给出的结果也够硬:在 counterfactual reasoning 上相对基线有明显增益,并且在控制场景里只用极少量 latent features 就能达到接近 patch-based world model 的表现。
如果从 JEPA 近两个月进展里只挑一篇最值得跟的,我会选这篇。它还不是一个完整的新主流范式,但已经明显超过“把 JEPA 换个数据集再跑一次”的级别,属于接近颠覆性候选的工作。