TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

长上下文推理里，KV cache 已经成为推理内存和部署成本的核心瓶颈之一。现有量化方法通常需要校准数据、复杂统计特征或异常值处理，工程链条重且对新模型的迁移成本高。

TurboAngle 的核心思路是先用随机对角旋转和快速 Walsh-Hadamard 变换把 KV 向量送入一个更适合量化的域，再对连续元素对的角度做均匀量化。它进一步引入逐层 early-boost 和 K/V 非对称范数量化，从而在零校准条件下实现近乎无损的 KV 压缩。

它值得正式收录，因为它没有继续在原始激活分布上做补丁，而是直接改变了量化问题的表述方式。这种“先把分布变成可量化域”的路线，对推理系统、缓存压缩和后续量化器设计都有清晰方法外溢。

它暂时不升到更高一级，原因在于当前证据仍主要集中在 perplexity 和量化配置分析上，真实下游任务、长上下文基准和系统级延迟收益还需要更完整的验证。