Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2603.29252

收录解读

长视频理解一直卡在上下文窗口和计算成本之间：把所有帧一次性塞给 MLLM 既昂贵也容易引入噪声，而简单抽帧又会丢掉关键细节。FlexMem 这篇工作把问题换了一个角度来做：不是直接缩短输入，而是把视频理解改写成视觉记忆的写入、压缩和读取问题。

论文提出一个 training-free 的 visual memory mechanism。它把 visual KV caches 当成 memory source，通过 dual-pathway compression 做有效的 memory transfer 和 writing，再针对不同长视频与 streaming 任务设计 memory reading 策略。这个接口的关键点在于，它不需要重新训练底层 MLLM，却能让模型在较低硬件成本下处理更长视频，并维持较强问答能力。

这篇工作值得收录，因为它给出了长视频理解里一个更可复用的 memory pattern：把视觉上下文持续写入可检索记忆，再按问题进行针对性读取。这对 long-video MLLM、streaming understanding 和更广义的 multimodal memory design 都有外溢，不只是又一个抽帧技巧。

它没有升到更高一级，是因为当前证据仍主要集中在长视频 benchmark 和作者指定的两套 video-MLLM 上。它是一个很强的 memory mechanism，但还需要更多独立模型、更多真实视频场景和更长期采用来证明其更高层的路线价值。

链接

论文链接