收录解读
这篇论文抓住了当前视频 VLM 一个被很多综合 benchmark 掩盖的核心短板:视觉实体跟踪。作者指出,现有视频问答数据里常常存在可利用的静态外观线索,模型即使没有真正跟踪能力,也能通过单帧重识别得到高分。为此,论文把经典的 shell game 重新做成一个严格去除外观捷径的诊断任务,直接检验模型能否仅凭时空连续性追踪完全相同的对象。
作者提出 VET-Bench,用外观完全一致的杯子、扑克牌等对象构造 synthetic diagnostic benchmark,逼迫模型依赖真正的时序实体表征。实验显示,现有前沿视频 VLM 在这一测试上接近随机猜测。论文进一步给出理论分析,把这类视觉实体跟踪和 state-tracking 问题联系起来,论证固定深度 transformer 在没有中间计算监督时存在表达能力限制。
在方法上,作者提出 Spatiotemporal Grounded Chain-of-Thought(SGCoT),让模型先显式生成对象轨迹,再给出最终答案,把感知问题转成有中间状态的推理过程。基于 Molmo2 的跟踪能力和合成文本对齐数据,SGCoT 在 VET-Bench 上把性能推到 90% 以上。对仓库来说,这篇的价值不只是一个新 benchmark,而是把视频感知、状态跟踪、CoT 中间监督和模型表达能力限制连接起来,属于多模态推理主线里很值得收的条目。
它没有更高一级,因为当前仍是 arXiv 预印本,而且任务设置带有较强诊断性质,外部复现和跨任务外溢还需要继续观察。如果后续社区把 VET-Bench 或类似 shell-game-style tracking 视为视频 VLM 的标准短板测试,这篇的地位还可能继续上升。