JEPA 与预测式世界模型 突破级 有讲解视频
发表时间
2026-02-22
arXiv
2602.19322

收录解读

这篇论文把 JEPA 应用到了超声医学影像。这个方向是匹配的,因为超声本身噪声大、伪影多、像素重建目标不稳定,传统 masked image modeling 在这种场景里天然吃亏,而 JEPA 这类 masked latent prediction 更适合学到稳健语义表示。

方法上,作者提出 `US-JEPA`,并引入 `SALT`,即 static-teacher asymmetric latent training。和标准 JEPA 常用的 EMA online teacher 不同,这里用一个冻结的领域教师提供稳定 latent targets,让 student 去扩展这些医学语义先验。这样能减少 teacher-student 联合优化的不稳定性,也更适合医疗场景下高噪声数据的训练。

这篇工作的贡献有两层。一层是方法本身:证明 JEPA 风格的 latent prediction 在超声这种困难模态上确实比像素级重建更合理。另一层是评测贡献:它给了一个比较系统的超声 foundation model 对比,在 UltraBench 这样的公开基准上做了更完整的横向验证。

我对它的定位是突破性。它不是会改写整个 JEPA 主线的论文,但它足够说明 JEPA 在医疗影像里不是概念秀,而是有明确落地价值的一条路线。

解读视频

链接