多模态基础模型
突破级
暂无讲解视频
收录解读
视频大模型的 token 压缩通常发生在视觉编码之后或 prefill 后期,但视觉 encoder 本身已经消耗大量 TTFT。
EarlyTom 的关键观察是压缩应更早进入 vision encoder 内部,并结合 decoupled spatial token selection,在不训练的情况下减少视觉 token 计算。
在 LLaVA-OneVision-7B 上,论文报告 TTFT 最高降低 2.65x、FLOPs 降低 61%,同时保持接近 full-token baseline 的准确率。
它值得收录,因为实时视频理解和多模态 agent 需要端到端延迟优化,EarlyTom 把 token pruning 从语言侧/late prefill 推进到视觉编码内部。