EarlyTom: Early Token Compression Completes Fast Video Understanding

多模态基础模型突破级暂无讲解视频

收录解读

视频大模型的 token 压缩通常发生在视觉编码之后或 prefill 后期，但视觉 encoder 本身已经消耗大量 TTFT。

EarlyTom 的关键观察是压缩应更早进入 vision encoder 内部，并结合 decoupled spatial token selection，在不训练的情况下减少视觉 token 计算。

在 LLaVA-OneVision-7B 上，论文报告 TTFT 最高降低 2.65x、FLOPs 降低 61%，同时保持接近 full-token baseline 的准确率。

它值得收录，因为实时视频理解和多模态 agent 需要端到端延迟优化，EarlyTom 把 token pruning 从语言侧/late prefill 推进到视觉编码内部。