多模态基础模型
突破级
暂无讲解视频
收录解读
长视频理解一直卡在上下文窗口和计算成本之间:把所有帧一次性塞给 MLLM 既昂贵也容易引入噪声,而简单抽帧又会丢掉关键细节。FlexMem 这篇工作把问题换了一个角度来做:不是直接缩短输入,而是把视频理解改写成视觉记忆的写入、压缩和读取问题。
论文提出一个 training-free 的 visual memory mechanism。它把 visual KV caches 当成 memory source,通过 dual-pathway compression 做有效的 memory transfer 和 writing,再针对不同长视频与 streaming 任务设计 memory reading 策略。这个接口的关键点在于,它不需要重新训练底层 MLLM,却能让模型在较低硬件成本下处理更长视频,并维持较强问答能力。
这篇工作值得收录,因为它给出了长视频理解里一个更可复用的 memory pattern:把视觉上下文持续写入可检索记忆,再按问题进行针对性读取。这对 long-video MLLM、streaming understanding 和更广义的 multimodal memory design 都有外溢,不只是又一个抽帧技巧。
它没有升到更高一级,是因为当前证据仍主要集中在长视频 benchmark 和作者指定的两套 video-MLLM 上。它是一个很强的 memory mechanism,但还需要更多独立模型、更多真实视频场景和更长期采用来证明其更高层的路线价值。