VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

多模态基础模型突破级暂无讲解视频

收录解读

VGenST-Bench 针对多模态模型的 spatio-temporal reasoning 评测缺口：静态图像或被动收集视频难以精确控制场景变量，也难以拆分低层感知和高层时空推理。

论文用 generative models 主动合成受控、多样的视频评测场景，并通过 multi-agent pipeline 与 human quality control 保证视频和 QA 质量。

它设计 3x2x2 video taxonomy，覆盖 Spatial Scale、Perspective 和 Scene Dynamics，并建立 hierarchical task suite 以区分视觉感知和时空推理。

它值得正式收录，因为它把 multimodal evaluation 从被动数据收集推进到主动合成可控评测场景，对视频理解、世界模型和多模态 reasoning 都有方法溢出。