V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

JEPA 与预测式世界模型突破级暂无讲解视频

发表时间: 2026-03-15
arXiv: 2603.14482

收录解读

这篇论文针对视频自监督学习里一个很实际的结构性问题：JEPA 类方法在全局语义和时序理解上很强，但只对被遮挡区域施加预测损失时，可见 token 会逐渐失去局部空间结构，退化成服务于全局聚合的载体，导致模型在分割、深度估计和机器人操作这类密集任务上明显吃亏。作者的目标不是再做一个更大的视频表征模型，而是把“全局视频理解”和“局部稠密特征”统一到同一套视频自监督编码器里。

论文提出 V-JEPA 2.1，核心在于四个组件的协同：对可见与被遮挡 token 同时施加的 dense predictive loss、把预测监督下沉到多个中间层的 deep self-supervision、分别适配图像与视频的 multi-modal tokenizer，以及大规模图像/视频混合训练。最关键的新意是上下文 token 也被显式锚定到时空位置，从而修复了标准 JEPA 里局部结构被冲掉的问题；同时又通过距离加权和 warm-up 设计，尽量避免这种局部监督反过来伤到全局动作理解。

这篇值得正式收录，因为它不只是 JEPA 系列的又一次涨点，而是把视频自监督学习从“语义强、密集弱”的不完整表征推进到更可复用的统一接口。它在 Ego4D、EPIC-KITCHENS、NYUv2、机器人抓取和导航等任务上都显示出外溢价值，尤其对 world model、具身智能、视频表征和跨模态视觉基础模型都有直接影响。对这个仓库来说，它更接近一种 durable representation recipe，而不是单纯 benchmark 工程。

它暂时不到更高一级，原因在于方法仍然建立在既有 V-JEPA 主线上，更多是一次非常成功的强化与补齐，而不是彻底重写视频自监督范式。此外，局部与全局监督之间的权衡仍带有较强经验性，复杂分割场景上也还未完全压过最强图像基座，因此目前定在 breakthrough 更稳。

链接

论文链接