生成建模与扩散 突破级 有讲解视频
发表时间
2026-05-25
arXiv
2605.25874

收录解读

WBench 针对 interactive video/world models 的评估缺口:现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力,缺少系统化多轮世界评测。

它构建 289 个 test cases 和 1,058 个 interaction turns,每个样例包含世界设定和多轮交互序列,覆盖 navigation、subject action、event editing 和 perspective switching。

评测维度包括 video quality、setting adherence、interaction adherence、consistency 和 physics compliance,并用 22 个自动子指标结合视觉专家模型和多模态大模型,且与人工判断校准。

它值得正式收录,因为它给交互式世界模型提供了统一诊断接口,直接服务于 embodied simulation、游戏世界模型和机器人交互环境生成。

解读视频

链接