Small Vision-Language Models are Smart Compressors for Long Video Understanding

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08120

收录解读

这篇论文处理长视频理解中的上下文瓶颈。小时级视频会迅速耗尽 MLLM token budget，固定稀疏采样和均匀池化又容易丢掉关键瞬间，导致模型在长程问答中既浪费上下文又错过证据。

Tempo 的核心思路是让小型视觉语言模型充当局部 temporal compressor，把 token reduction 变成 query-aware 的早期跨模态蒸馏。随后 Adaptive Token Allocation 利用小模型的零样本相关性先验和 semantic front-loading 现象，在不训练路由器的情况下，把更多 token 分配给 query-critical 片段，并把背景片段压缩成最小锚点。

它值得收录，因为它给长视频理解提供了一个实用且可迁移的分层接口：小模型负责局部、查询相关的压缩，大模型负责全局推理。论文显示 6B 级系统在严格视觉 token 预算下达到强长视频表现，并在 LVBench 等极长视频任务上超过若干闭源基线，说明长视频能力不一定来自盲目扩大上下文，而可以来自语义必要性驱动的动态带宽分配。

主要限制是 Tempo 依赖 SVLM 已经具备可用的 relevance prior，当前 ATA 仍是启发式和零样本机制，而不是经过任务奖励优化的稳定路由策略。其优势也主要在视频问答/理解，尚未扩展到视频 agent、交互式 world model 或动作闭环。

链接

论文链接