对应论文

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

视频简介

WBench 针对 interactive video/world models 的评估缺口:现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力,缺少系统化多轮世界评测。 它构建 289 个 test cases 和 1,058 个 interaction turns,每个样例包含世界设定和多轮交互序列,覆盖 navigation、subject action、event editing 和 perspective switching。 评测维度包括 video quality、setting adherence、interaction adherence、consistency 和 physics compliance,并用 22 个自动子指标结合视觉专家模型和多模态大模型,且与人工判断校准。 它值得正式收录,因为它给交互式世界模型提供了统一诊断接口,直接服务于 embodied simulation、游戏世界模型和机器人交互环境生成。

外部视频链接

论文链接