推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-03-17
arXiv
2603.16435

收录解读

这篇论文针对长上下文 LLM 的核心部署瓶颈:KV cache 随上下文长度线性增长,直接限制显存、吞吐和可生成长度。与 token eviction、低秩投影或 scalar quantization 相比,作者把问题转成 vector-level quantization,希望同时获得高压缩率和高重构保真度。

VQKV 是 training-free 方法,不修改模型参数。它用 SimVQ 把高维 KV cache 向量映射到紧凑 codebooks,用少量整数索引替代大量浮点 cache 值;同时通过 residual codebook design 分散 RoPE 带来的异质频率变化,使 RoPE-rotated key cache 也能保持较高重构质量。

实验在 LLaMA3.1-8B 和 LongBench 上显示,VQKV 达到 82.8% KV cache 压缩,同时保留 98.6% baseline 表现,并在相同显存 footprint 下支持 4.3 倍更长 generation length。论文还提供 GitHub 和 Hugging Face checkpoint,工程复现路径相对清晰。

它值得正式收录,因为它提供了一个可复用的推理时内存压缩 primitive:无需训练、模型参数无侵入、面向长上下文和资源受限部署,直接影响 LLM serving、agent 长程记忆窗口和边缘推理的成本曲线。

链接