JEPA 与预测式世界模型

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

发表：2026-04-24 · 突破级

这篇论文解决的是 interactive video world model 一个明显但长期没被补上的评测缺口：模型很多、控制接口各异、测试场景和轨迹不统一，导致不同工作之间几乎无法做 apples-to-apples 比较。过去各种指标零散存在，但缺的是统一输入、统一动作、统一测试条件。 WorldMark...

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

发表：2026-04-06 · 突破级

这篇论文针对生成式视频世界模型的计算瓶颈：现有方法通常在密集空间-时间 latent 上建模，未来每个 frame 仍对应大量空间 token，导致多未来采样和长时序预测开销很高。作者把问题重新表述为预测相邻视觉基础模型特征的变化，而不是重建完整未来帧。方法上，DeltaTok 将相邻帧 VFM featur...

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

发表：2026-03-24 · 突破级

很多视频 world model 数据集并不真正适合 action-conditioned dynamics 学习：动作空间窄、语义弱，动作又直接绑在像素变化上，缺少中间 state，使模型更容易学到视觉相关性而不是可控动力学。WildWorld 针对的是这个 dataset 层面的结构性缺口。它基于 pho...

Grounding World Simulation Models in a Real-World Metropolis

发表：2026-03-16 · 突破级

这篇论文处理的是 world model 方向里一个很关键但很少被真正解决的问题：如何让世界模拟不再停留在“看起来像真的”虚构环境，而是锚定到现实中真实存在的城市空间。以往视频世界模型大多生成视觉上合理但不对应真实地理结构的场景，而这篇工作把目标直接改成真实城市级别的 long-horizon simulati...

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

发表：2026-03-15 · 突破级

这篇论文针对视频自监督学习里一个很实际的结构性问题：JEPA 类方法在全局语义和时序理解上很强，但只对被遮挡区域施加预测损失时，可见 token 会逐渐失去局部空间结构，退化成服务于全局聚合的载体，导致模型在分割、深度估计和机器人操作这类密集任务上明显吃亏。作者的目标不是再做一个更大的视频表征模型，而是把“全局...

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

发表：2026-03-13 · 突破级

这篇论文针对 JEPA 系世界模型长期存在的一个核心问题：一旦直接从像素端到端训练 encoder 和 dynamics predictor，模型很容易发生 representation collapse，因此现有方法往往依赖多项损失、EMA、冻结预训练编码器或额外监督信号来维持稳定性。这样虽然能工作，但训练配...

Temporal Straightening for Latent Planning

发表：2026-03-12 · 突破级

这篇论文处理的是 latent world model planning 的一个底层但关键的问题：即便感知编码器足够强，学出来的 latent space 也未必适合规划。预训练视觉表示往往包含大量与规划无关的信息，导致 latent trajectory 高度弯曲，Euclidean 距离不能可靠近似可达路径...

Next Embedding Prediction Makes World Models Stronger

发表：2026-03-03 · 突破级

**问题与背景** 这篇论文围绕 world models / latent prediction / representation learning 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据...

MetaOthello: A Controlled Study of Multiple World Models in Transformers

发表：2026-02-26 · 突破级

**问题与背景** 这篇论文围绕 world models / transformers / representation analysis 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局...

Solaris: Building a Multiplayer Video World Model in Minecraft

发表：2026-02-25 · 突破级

这篇论文针对当前视频世界模型的一个明显缺口：大多数模型只处理单智能体视角，难以稳定模拟真实环境中的多智能体交互与多视角一致性。作者把问题直接推进到更困难也更现实的场景，在 Minecraft 中构建一个支持多玩家同步视频与动作采集的数据系统，并据此训练 multiplayer video world model...

US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

发表：2026-02-22 · 突破级

这篇论文把 JEPA 应用到了超声医学影像。这个方向是匹配的，因为超声本身噪声大、伪影多、像素重建目标不稳定，传统 masked image modeling 在这种场景里天然吃亏，而 JEPA 这类 masked latent prediction 更适合学到稳健语义表示。方法上，作者提出 `US-JEPA...

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

发表：2026-02-11 · 颠覆级

这篇论文是 JEPA 路线里少数真正往 object-centric world model 推进的工作。它不是继续做 patch-level 的 latent prediction，而是把预测单位提升到对象级别，并通过 object-level masking 让模型必须利用其他对象的状态去推断被遮蔽对象的未...

A Minimal Task Reveals Emergent Path Integration and Object-Location Binding in a Predictive Sequence Model

发表：2026-02-03 · 突破级

**问题与背景** 这篇论文针对 `predictive sequence models / path integration / world modeling` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟...

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

发表：2026-02-02 · 突破级

这篇论文把 JEPA 路线正式推到了 vision-language 模型。核心思路是：与其像传统 VLM 那样在 token 空间里自回归生成文本，不如直接预测文本的连续 embedding。这样模型学习的是更抽象的语义空间，而不是被表面词形和解码过程牵着走。方法上，`VL-JEPA` 在视觉到语言的映射中...

Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving

发表：2026-01-29 · 突破级

**问题与背景** 这篇论文围绕 autonomous driving / jepa / video world models 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优...