TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00696

收录解读

视频推理模型通常依赖大规模监督数据和多阶段训练管线，迁移到新 domain 或新数据分布时成本高、适配慢。test-time learning 虽然在若干模态里被反复讨论，但真正落到 video reasoning 上，尤其是无标注、样本极少的在线适配场景，仍然缺少足够强的方法。

论文提出 TTA-Vid，把 test-time reinforcement learning 用到 video-language reasoning 中。方法在 inference 时对不同 frame subsets 做 step-by-step reasoning，并利用 batch-aware frequency-based reward 在无真实标签条件下形成 pseudo supervision，再配合 multi-armed bandit 做自适应 frame selection，优先选择信息量高的片段。作者声称即便只用单 batch 或单 sample 也能形成对整个数据集乃至跨数据集的 test-time generalization。

这篇工作值得收录，因为它把 test-time adaptation 从 text/reasoning 场景有效推进到 video reasoning，并且不是简单套个 TTA 名字，而是给出了 reward 设计、frame selection 和跨样本泛化的完整机制。对多模态 adaptation、video understanding 和部署时快速适配，这是一条可复用的方法模式。

它没有升到更高一级，是因为当前仍是早期 arXiv 证据，方法的稳定性、成本和在更复杂视频任务上的耐久收益还需要进一步验证。它已经很有价值，但还未形成更高层级的统一适配范式。

链接

论文链接