LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

JEPA 与预测式世界模型突破级有讲解视频

发表时间: 2026-03-13
arXiv: 2603.19312

收录解读

这篇论文针对 JEPA 系世界模型长期存在的一个核心问题：一旦直接从像素端到端训练 encoder 和 dynamics predictor，模型很容易发生 representation collapse，因此现有方法往往依赖多项损失、EMA、冻结预训练编码器或额外监督信号来维持稳定性。这样虽然能工作，但训练配方复杂、超参数多，也削弱了 JEPA 作为简洁统一世界模型框架的吸引力。

LeWorldModel（LeWM）的核心贡献是把端到端像素 JEPA 压缩成一个更干净的两项训练目标：下一时刻 embedding 预测损失，加上一个促使 latent 服从各向同性高斯分布的 SIGReg 正则项。作者强调它不需要 stop-gradient、EMA、预训练 encoder 或辅助 reconstruction/reward 信号，并把可调损失超参数从现有端到端替代方案的六个缩到一个；同时 15M 参数模型可以在单卡上训练，并直接用于 latent planning。

这项工作值得收录，因为它不是普通 control benchmark 提升，而是在 JEPA/world model 主线上给出了一条更稳定、更低门槛的端到端像素学习路线。论文在多种 2D/3D 控制任务上展示了与 foundation-based world models 竞争的结果，并声称在规划速度上最高可快 48 倍；此外还通过物理量 probing 和 surprise evaluation 说明 latent space 确实学到了有用的物理结构。对仓库而言，它更像是 JEPA 从表征学习向可规划世界模型延伸的一篇关键方法论文。

它暂时还不到更高一级，原因也很明确：当前证据主要集中在模拟控制任务和与现有 JEPA/world model 方法的对比，离真正重排更广机器人或多模态世界模型路线还有距离。它证明了稳定端到端 JEPA 是可行的，但是否会成为更广泛采用的默认配方，还需要更多真实机器人、长时序和跨域验证。

解读视频

B 站 YouTube

链接

论文链接