多模态基础模型
突破级
暂无讲解视频
收录解读
HERMES 针对多模态大模型从离线视频理解走向 streaming video understanding 的核心矛盾:需要稳定理解、实时响应和低 GPU memory overhead,但常规长视频处理会随着帧数增长导致 TTFT 和显存不可控。
论文基于 layer-wise attention preference 的机制观察,把 KV cache 重新定义为包含多粒度视频信息的 hierarchical memory,而不是一次性缓存或简单 token eviction。
推理时 HERMES 复用 compact KV cache,并用分层管理策略保留不同粒度视频 token;用户查询到达时不需要额外 retrieval 或外部 memory computation,从而保证连续视频流交互的实时响应。
它值得正式收录,因为它把 streaming video MLLM 的效率问题转化为 KV-cache-as-memory 的系统接口,连接长视频理解、实时多模态交互、KV cache 管理和训练无关部署优化。