VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-03-17
arXiv: 2603.16435

收录解读

这篇论文针对长上下文 LLM 的核心部署瓶颈：KV cache 随上下文长度线性增长，直接限制显存、吞吐和可生成长度。与 token eviction、低秩投影或 scalar quantization 相比，作者把问题转成 vector-level quantization，希望同时获得高压缩率和高重构保真度。

VQKV 是 training-free 方法，不修改模型参数。它用 SimVQ 把高维 KV cache 向量映射到紧凑 codebooks，用少量整数索引替代大量浮点 cache 值；同时通过 residual codebook design 分散 RoPE 带来的异质频率变化，使 RoPE-rotated key cache 也能保持较高重构质量。

实验在 LLaMA3.1-8B 和 LongBench 上显示，VQKV 达到 82.8% KV cache 压缩，同时保留 98.6% baseline 表现，并在相同显存 footprint 下支持 4.3 倍更长 generation length。论文还提供 GitHub 和 Hugging Face checkpoint，工程复现路径相对清晰。

它值得正式收录，因为它提供了一个可复用的推理时内存压缩 primitive：无需训练、模型参数无侵入、面向长上下文和资源受限部署，直接影响 LLM serving、agent 长程记忆窗口和边缘推理的成本曲线。

链接

论文链接代码代码