US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

JEPA 与预测式世界模型突破级有讲解视频

发表时间: 2026-02-22
arXiv: 2602.19322

收录解读

这篇论文把 JEPA 应用到了超声医学影像。这个方向是匹配的，因为超声本身噪声大、伪影多、像素重建目标不稳定，传统 masked image modeling 在这种场景里天然吃亏，而 JEPA 这类 masked latent prediction 更适合学到稳健语义表示。

方法上，作者提出 `US-JEPA`，并引入 `SALT`，即 static-teacher asymmetric latent training。和标准 JEPA 常用的 EMA online teacher 不同，这里用一个冻结的领域教师提供稳定 latent targets，让 student 去扩展这些医学语义先验。这样能减少 teacher-student 联合优化的不稳定性，也更适合医疗场景下高噪声数据的训练。

这篇工作的贡献有两层。一层是方法本身：证明 JEPA 风格的 latent prediction 在超声这种困难模态上确实比像素级重建更合理。另一层是评测贡献：它给了一个比较系统的超声 foundation model 对比，在 UltraBench 这样的公开基准上做了更完整的横向验证。

我对它的定位是突破性。它不是会改写整个 JEPA 主线的论文，但它足够说明 JEPA 在医疗影像里不是概念秀，而是有明确落地价值的一条路线。

解读视频

B 站 YouTube

链接

论文链接