多模态基础模型 突破级 暂无讲解视频
发表时间
2026-05-21
arXiv
2605.22570

收录解读

VGenST-Bench 针对多模态模型的 spatio-temporal reasoning 评测缺口:静态图像或被动收集视频难以精确控制场景变量,也难以拆分低层感知和高层时空推理。

论文用 generative models 主动合成受控、多样的视频评测场景,并通过 multi-agent pipeline 与 human quality control 保证视频和 QA 质量。

它设计 3x2x2 video taxonomy,覆盖 Spatial Scale、Perspective 和 Scene Dynamics,并建立 hierarchical task suite 以区分视觉感知和时空推理。

它值得正式收录,因为它把 multimodal evaluation 从被动数据收集推进到主动合成可控评测场景,对视频理解、世界模型和多模态 reasoning 都有方法溢出。

链接