JEPA 与预测式世界模型 突破级 暂无讲解视频
发表时间
2026-02-02
arXiv
2512.10942

收录解读

这篇论文把 JEPA 路线正式推到了 vision-language 模型。核心思路是:与其像传统 VLM 那样在 token 空间里自回归生成文本,不如直接预测文本的连续 embedding。这样模型学习的是更抽象的语义空间,而不是被表面词形和解码过程牵着走。

方法上,`VL-JEPA` 在视觉到语言的映射中预测 target text embedding,并只在需要输出文本时调用一个轻量 decoder。这个设计带来两个直接好处:一是训练参数更少;二是推理时可以做 selective decoding,只在必要的时候进行文本解码,而不是对每个步骤都完整生成 token。

它的重要性在于,这是 JEPA 主线向 VLM 替代路线的一次明确尝试。摘要里给出的收益也很实在:同样的数据和视觉编码器下,相比标准 token-space VLM 训练性能更强,可训练参数减少约一半,同时 selective decoding 将解码操作数降到原来的约三分之一。除此之外,它的 embedding space 还能自然支持检索、开放词汇分类和判别式 VQA。

我会把这篇定位成突破性,而不是更高。原因是它目前更像一条很强的替代路线证明,而不是已经坐实的新标准。但如果 JEPA 真要进入多模态主线,这篇会是必须回看的代表作。

链接