多模态基础模型
突破级
暂无讲解视频
收录解读
这篇论文处理长视频理解中的上下文瓶颈。小时级视频会迅速耗尽 MLLM token budget,固定稀疏采样和均匀池化又容易丢掉关键瞬间,导致模型在长程问答中既浪费上下文又错过证据。
Tempo 的核心思路是让小型视觉语言模型充当局部 temporal compressor,把 token reduction 变成 query-aware 的早期跨模态蒸馏。随后 Adaptive Token Allocation 利用小模型的零样本相关性先验和 semantic front-loading 现象,在不训练路由器的情况下,把更多 token 分配给 query-critical 片段,并把背景片段压缩成最小锚点。
它值得收录,因为它给长视频理解提供了一个实用且可迁移的分层接口:小模型负责局部、查询相关的压缩,大模型负责全局推理。论文显示 6B 级系统在严格视觉 token 预算下达到强长视频表现,并在 LVBench 等极长视频任务上超过若干闭源基线,说明长视频能力不一定来自盲目扩大上下文,而可以来自语义必要性驱动的动态带宽分配。
主要限制是 Tempo 依赖 SVLM 已经具备可用的 relevance prior,当前 ATA 仍是启发式和零样本机制,而不是经过任务奖励优化的稳定路由策略。其优势也主要在视频问答/理解,尚未扩展到视频 agent、交互式 world model 或动作闭环。