WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

生成建模与扩散突破级有讲解视频

收录解读

WBench 针对 interactive video/world models 的评估缺口：现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力，缺少系统化多轮世界评测。

它构建 289 个 test cases 和 1,058 个 interaction turns，每个样例包含世界设定和多轮交互序列，覆盖 navigation、subject action、event editing 和 perspective switching。

评测维度包括 video quality、setting adherence、interaction adherence、consistency 和 physics compliance，并用 22 个自动子指标结合视觉专家模型和多模态大模型，且与人工判断校准。

它值得正式收录，因为它给交互式世界模型提供了统一诊断接口，直接服务于 embodied simulation、游戏世界模型和机器人交互环境生成。