JEPA 与预测式世界模型 颠覆级 有讲解视频
发表时间
2026-02-11
arXiv
2602.11389

收录解读

这篇论文是 JEPA 路线里少数真正往 object-centric world model 推进的工作。它不是继续做 patch-level 的 latent prediction,而是把预测单位提升到对象级别,并通过 object-level masking 让模型必须利用其他对象的状态去推断被遮蔽对象的未来表示。

方法上,作者提出 `Causal-JEPA`。核心做法是把视频场景表示成对象槽位,再在训练时对部分对象进行干预式遮蔽。模型需要根据剩余对象和时序上下文预测目标对象的 latent trajectory。这样的训练目标会显式鼓励模型学习对象之间的相互作用,而不是只记住局部纹理或短期运动模式。作者把这种效果解释为一种因果导向的归纳偏置。

这篇工作的价值在于,它把 JEPA 从通用表征学习进一步推到“可用于预测、反事实推理和控制”的世界模型方向。摘要里给出的结果也够硬:在 counterfactual reasoning 上相对基线有明显增益,并且在控制场景里只用极少量 latent features 就能达到接近 patch-based world model 的表现。

如果从 JEPA 近两个月进展里只挑一篇最值得跟的,我会选这篇。它还不是一个完整的新主流范式,但已经明显超过“把 JEPA 换个数据集再跑一次”的级别,属于接近颠覆性候选的工作。

解读视频

链接