WorldMark: A Unified Benchmark Suite for Interactive Video World Models

JEPA 与预测式世界模型突破级暂无讲解视频

发表时间: 2026-04-24
arXiv: 2604.21686

收录解读

这篇论文解决的是 interactive video world model 一个明显但长期没被补上的评测缺口：模型很多、控制接口各异、测试场景和轨迹不统一，导致不同工作之间几乎无法做 apples-to-apples 比较。过去各种指标零散存在，但缺的是统一输入、统一动作、统一测试条件。

WorldMark 的核心贡献是把这个比较基础设施补齐。它引入统一 action-mapping layer，把共享的 WASD 风格动作空间翻译成各模型原生控制格式；再配一个 500 个 evaluation cases 的分层测试集，覆盖视角、风格和难度；最后用模块化评测工具同时看 visual quality、control alignment 和 world consistency，并开放在线 World Model Arena。

它值得正式收录，因为这是一种很典型的 durable evaluation interface。随着 interactive world models 从 demo 走向更接近 agent / game / simulation 的使用场景，一个可复用、可扩展、可横向比较的 benchmark suite 会直接影响后续方法发展和社区共识。

它没有升到更高等级，是因为它主要定义了统一评测接口，而不是新的世界模型方法论；长期影响仍要看是否成为该方向的默认 benchmark stack。

链接

论文链接项目