能在AI生成的视频里直接打游戏？复旦大学等发布世界模型多轮交互基准WBench | DAST Papers

对应论文

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

视频简介

WBench 针对 interactive video/world models 的评估缺口：现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力，缺少系统化多轮世界评测。它构建 289 个 test cases 和 1,058 个 interaction turns，每个样例包含世界设定和多轮交互序列，覆盖 navigation、subject action、event editing 和 perspective switching。评测维度包括 video quality、setting adherence、interaction adherence、consistency 和 physics compliance，并用 22 个自动子指标结合视觉专家模型和多模态大模型，且与人工判断校准。它值得正式收录，因为它给交互式世界模型提供了统一诊断接口，直接服务于 embodied simulation、游戏世界模型和机器人交互环境生成。

外部视频链接

论文链接

论文详情页