GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.24329

收录解读

面向 3D 虚拟环境与 embodied agent 的视频理解，难点从来不只是“看懂一段视频”，而是要在第一人称视角下处理高决策密度、多主体并发、快速状态变化和跨视频对齐。现有多模态 benchmark 很少真正测这些 agent-centric 感知与推理能力，因此模型即使在通用视频 QA 上表现不错，也未必适合做自主体感知骨干。GameplayQA 对准的正是这个缺口。

论文的核心贡献是构造了一套 decision-dense、POV-synced、multi-video 的评测框架：作者对多人 3D 游戏视频做高密度时序标注，把事件组织成 Self、Other Agents 与 World 三元结构，再从中提炼出 2.4K 诊断式 QA，并配上可分析 hallucination 来源的 distractor taxonomy。它测的不只是答案对错，而是模型在 temporal grounding、agent-role attribution 和跨视角并发行为理解上到底哪里出问题。

这篇工作值得正式收录，因为它给多智能体环境下的 agentic perception 补了一块很缺的 benchmark：不是通用视频理解，不是单主体 action recognition，而是围绕自主体决策需要的多主体、时间同步、世界状态解析来组织评测。对 embodied AI、virtual agents、world modeling 和 video reasoning 都有耐用外溢。

它目前仍是 breakthrough，而不是更高一级，因为 benchmark 规模和场景多样性还没有大到足以成为压倒性的默认标准，主要环境也集中在 3D gameplay domain。它已经足够值得收，但长期地位还要看后续社区是否围绕这套 agent-centric视频评测收敛。

链接

论文链接