核心要点
- 问题/背景
- 这篇 arXiv 论文直接接在 LeWorldModel 之后,处理 JEPA 世界模型从像素端到端训练的核心问题:表示崩溃与过强先验之间的 bias-variance tradeoff。
- 方法/机制
- LeWM 用全 latent 空间的各向同性高斯正则防止 collapse,但作者指出控制任务的 latent 往往落在高维环境空间中的低维流形上,直接在全空间施加强高斯先验会压制表示灵活性。
- 结果/证据
- Sub-JEPA 的方法非常简单:把 Gaussian regularization 从原始 embedding 空间移到多个随机低维正交子空间中,在保留 anti-collapse 效果的同时放松全局约束。实验覆盖 Two-Room、Reacher、PushT 和 OGB-Cube 四个连续控制环境,报告相对 LeWM 有稳定大幅提升。
- 收录价值
- 收录价值在于它是 JEPA/world model 训练稳定性的一种可复用正则化 primitive,不靠更大模型或复杂训练 recipe,而是调整 latent prior 的几何施加方式;对端到端世界模型、latent planning 和机器人控制都有直接参考价值。
收录解读
这篇 arXiv 论文直接接在 LeWorldModel 之后,处理 JEPA 世界模型从像素端到端训练的核心问题:表示崩溃与过强先验之间的 bias-variance tradeoff。
LeWM 用全 latent 空间的各向同性高斯正则防止 collapse,但作者指出控制任务的 latent 往往落在高维环境空间中的低维流形上,直接在全空间施加强高斯先验会压制表示灵活性。
Sub-JEPA 的方法非常简单:把 Gaussian regularization 从原始 embedding 空间移到多个随机低维正交子空间中,在保留 anti-collapse 效果的同时放松全局约束。实验覆盖 Two-Room、Reacher、PushT 和 OGB-Cube 四个连续控制环境,报告相对 LeWM 有稳定大幅提升。
收录价值在于它是 JEPA/world model 训练稳定性的一种可复用正则化 primitive,不靠更大模型或复杂训练 recipe,而是调整 latent prior 的几何施加方式;对端到端世界模型、latent planning 和机器人控制都有直接参考价值。
论文摘要
Sub-JEPA improves stable end-to-end JEPA world-model training by replacing LeWorldModel's full ambient-space isotropic Gaussian regularization with Gaussian constraints applied in multiple random low-dimensional orthogonal subspaces. This preserves anti-collapse pressure while relaxing an overly strong global prior, better matching low-dimensional latent manifolds in continuous-control tasks.