JEPA 与预测式世界模型 突破级 暂无讲解视频
发表时间
2026-04-24
arXiv
2604.21686

收录解读

这篇论文解决的是 interactive video world model 一个明显但长期没被补上的评测缺口:模型很多、控制接口各异、测试场景和轨迹不统一,导致不同工作之间几乎无法做 apples-to-apples 比较。过去各种指标零散存在,但缺的是统一输入、统一动作、统一测试条件。

WorldMark 的核心贡献是把这个比较基础设施补齐。它引入统一 action-mapping layer,把共享的 WASD 风格动作空间翻译成各模型原生控制格式;再配一个 500 个 evaluation cases 的分层测试集,覆盖视角、风格和难度;最后用模块化评测工具同时看 visual quality、control alignment 和 world consistency,并开放在线 World Model Arena。

它值得正式收录,因为这是一种很典型的 durable evaluation interface。随着 interactive world models 从 demo 走向更接近 agent / game / simulation 的使用场景,一个可复用、可扩展、可横向比较的 benchmark suite 会直接影响后续方法发展和社区共识。

它没有升到更高等级,是因为它主要定义了统一评测接口,而不是新的世界模型方法论;长期影响仍要看是否成为该方向的默认 benchmark stack。

链接