收录解读
这篇论文针对 JEPA 系世界模型长期存在的一个核心问题:一旦直接从像素端到端训练 encoder 和 dynamics predictor,模型很容易发生 representation collapse,因此现有方法往往依赖多项损失、EMA、冻结预训练编码器或额外监督信号来维持稳定性。这样虽然能工作,但训练配方复杂、超参数多,也削弱了 JEPA 作为简洁统一世界模型框架的吸引力。
LeWorldModel(LeWM)的核心贡献是把端到端像素 JEPA 压缩成一个更干净的两项训练目标:下一时刻 embedding 预测损失,加上一个促使 latent 服从各向同性高斯分布的 SIGReg 正则项。作者强调它不需要 stop-gradient、EMA、预训练 encoder 或辅助 reconstruction/reward 信号,并把可调损失超参数从现有端到端替代方案的六个缩到一个;同时 15M 参数模型可以在单卡上训练,并直接用于 latent planning。
这项工作值得收录,因为它不是普通 control benchmark 提升,而是在 JEPA/world model 主线上给出了一条更稳定、更低门槛的端到端像素学习路线。论文在多种 2D/3D 控制任务上展示了与 foundation-based world models 竞争的结果,并声称在规划速度上最高可快 48 倍;此外还通过物理量 probing 和 surprise evaluation 说明 latent space 确实学到了有用的物理结构。对仓库而言,它更像是 JEPA 从表征学习向可规划世界模型延伸的一篇关键方法论文。
它暂时还不到更高一级,原因也很明确:当前证据主要集中在模拟控制任务和与现有 JEPA/world model 方法的对比,离真正重排更广机器人或多模态世界模型路线还有距离。它证明了稳定端到端 JEPA 是可行的,但是否会成为更广泛采用的默认配方,还需要更多真实机器人、长时序和跨域验证。