多模态基础模型 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.30010

收录解读

视频大模型的 token 压缩通常发生在视觉编码之后或 prefill 后期,但视觉 encoder 本身已经消耗大量 TTFT。

EarlyTom 的关键观察是压缩应更早进入 vision encoder 内部,并结合 decoupled spatial token selection,在不训练的情况下减少视觉 token 计算。

在 LLaVA-OneVision-7B 上,论文报告 TTFT 最高降低 2.65x、FLOPs 降低 61%,同时保持接近 full-token baseline 的准确率。

它值得收录,因为实时视频理解和多模态 agent 需要端到端延迟优化,EarlyTom 把 token pruning 从语言侧/late prefill 推进到视觉编码内部。

链接