VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

JEPA 与预测式世界模型突破级暂无讲解视频

发表时间: 2026-02-02
arXiv: 2512.10942

收录解读

这篇论文把 JEPA 路线正式推到了 vision-language 模型。核心思路是：与其像传统 VLM 那样在 token 空间里自回归生成文本，不如直接预测文本的连续 embedding。这样模型学习的是更抽象的语义空间，而不是被表面词形和解码过程牵着走。

方法上，`VL-JEPA` 在视觉到语言的映射中预测 target text embedding，并只在需要输出文本时调用一个轻量 decoder。这个设计带来两个直接好处：一是训练参数更少；二是推理时可以做 selective decoding，只在必要的时候进行文本解码，而不是对每个步骤都完整生成 token。

它的重要性在于，这是 JEPA 主线向 VLM 替代路线的一次明确尝试。摘要里给出的收益也很实在：同样的数据和视觉编码器下，相比标准 token-space VLM 训练性能更强，可训练参数减少约一半，同时 selective decoding 将解码操作数降到原来的约三分之一。除此之外，它的 embedding space 还能自然支持检索、开放词汇分类和判别式 VQA。

我会把这篇定位成突破性，而不是更高。原因是它目前更像一条很强的替代路线证明，而不是已经坐实的新标准。但如果 JEPA 真要进入多模态主线，这篇会是必须回看的代表作。

链接

论文链接