HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

多模态基础模型突破级暂无讲解视频

收录解读

HERMES 针对多模态大模型从离线视频理解走向 streaming video understanding 的核心矛盾：需要稳定理解、实时响应和低 GPU memory overhead，但常规长视频处理会随着帧数增长导致 TTFT 和显存不可控。

论文基于 layer-wise attention preference 的机制观察，把 KV cache 重新定义为包含多粒度视频信息的 hierarchical memory，而不是一次性缓存或简单 token eviction。

推理时 HERMES 复用 compact KV cache，并用分层管理策略保留不同粒度视频 token；用户查询到达时不需要额外 retrieval 或外部 memory computation，从而保证连续视频流交互的实时响应。

它值得正式收录，因为它把 streaming video MLLM 的效率问题转化为 KV-cache-as-memory 的系统接口，连接长视频理解、实时多模态交互、KV cache 管理和训练无关部署优化。