WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

JEPA 与预测式世界模型突破级有讲解视频

发表时间: 2026-03-24
arXiv: 2603.23497

收录解读

很多视频 world model 数据集并不真正适合 action-conditioned dynamics 学习：动作空间窄、语义弱，动作又直接绑在像素变化上，缺少中间 state，使模型更容易学到视觉相关性而不是可控动力学。WildWorld 针对的是这个 dataset 层面的结构性缺口。

它基于 photorealistic AAA action role-playing game 自动采集出大规模数据，提供超过 1.08 亿帧、450+ actions，以及逐帧同步的 skeleton、world states、camera poses 和 depth annotations。作者同时构造 WildBench，用 Action Following 和 State Alignment 评估模型是否真正学到 action-state-consistent world dynamics。

这篇工作的价值不只是数据量大，而是把 explicit state supervision、丰富语义动作和长时 state consistency 评测一起打包成一个更像“世界模型训练底座”的 benchmark。对 generative world modeling、state-aware video generation 和 action-conditioned simulation 学习都有明显的基础设施外溢。

它当前仍是 breakthrough，因为领域仍带有游戏环境先验，和更开放物理世界之间还有差距；同时它更像强 benchmark/data infrastructure，而不是直接提供新的建模范式。能否进一步上升，要看后续是否真正成为 state-aware world model 的标准底座。

解读视频

B 站 YouTube

链接

论文链接