Can Vision-Language Models Solve the Shell Game?

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-09
arXiv: 2603.08436

收录解读

这篇论文抓住了当前视频 VLM 一个被很多综合 benchmark 掩盖的核心短板：视觉实体跟踪。作者指出，现有视频问答数据里常常存在可利用的静态外观线索，模型即使没有真正跟踪能力，也能通过单帧重识别得到高分。为此，论文把经典的 shell game 重新做成一个严格去除外观捷径的诊断任务，直接检验模型能否仅凭时空连续性追踪完全相同的对象。

作者提出 VET-Bench，用外观完全一致的杯子、扑克牌等对象构造 synthetic diagnostic benchmark，逼迫模型依赖真正的时序实体表征。实验显示，现有前沿视频 VLM 在这一测试上接近随机猜测。论文进一步给出理论分析，把这类视觉实体跟踪和 state-tracking 问题联系起来，论证固定深度 transformer 在没有中间计算监督时存在表达能力限制。

在方法上，作者提出 Spatiotemporal Grounded Chain-of-Thought（SGCoT），让模型先显式生成对象轨迹，再给出最终答案，把感知问题转成有中间状态的推理过程。基于 Molmo2 的跟踪能力和合成文本对齐数据，SGCoT 在 VET-Bench 上把性能推到 90% 以上。对仓库来说，这篇的价值不只是一个新 benchmark，而是把视频感知、状态跟踪、CoT 中间监督和模型表达能力限制连接起来，属于多模态推理主线里很值得收的条目。

它没有更高一级，因为当前仍是 arXiv 预印本，而且任务设置带有较强诊断性质，外部复现和跨任务外溢还需要继续观察。如果后续社区把 VET-Bench 或类似 shell-game-style tracking 视为视频 VLM 的标准短板测试，这篇的地位还可能继续上升。

链接

论文链接