TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

理论、鲁棒性与核心机器学习突破级有讲解视频

发表时间: 2025-04-28
arXiv: 2504.19874

收录解读

向量量化一直是 KV cache 压缩和向量检索中的核心问题，但许多方法虽然降低了位宽，却仍要为每个 block 额外保存 scale、zero point 等高精度量化常数，导致真实内存收益被明显侵蚀。TurboQuant 处理的是这个长期被低估的系统瓶颈。

它提出一套 data-oblivious、适合 online 场景的向量量化方案：先随机旋转，把高维向量坐标变成更适合独立标量量化的分布；再在均方误差量化后，对 residual 施加 1-bit QJL 修正 inner product bias，从而同时兼顾 MSE 与 inner-product distortion。论文还给出了信息论下界，并证明其失真率只差一个小常数因子。

这篇工作的仓库价值不只在压缩率，而在于它把 KV cache quantization 和 vector search 统一到了更扎实的理论与系统接口上。对长上下文推理、检索基础设施和 memory-bound inference 来说，这是一条有持续外溢的核心技术路线。

它目前仍是 breakthrough，因为虽然理论和实验都很强，但离成为生产环境默认标准还需要更多跨模型、跨硬件和更大规模 serving 体系中的验证。特别是与更复杂 mixed-precision / runtime KV management 策略的耦合，还没有完全展开。

解读视频

B 站 YouTube

链接

论文链接