推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-03-29
arXiv
2603.27467

收录解读

长上下文推理里,KV cache 已经成为推理内存和部署成本的核心瓶颈之一。现有量化方法通常需要校准数据、复杂统计特征或异常值处理,工程链条重且对新模型的迁移成本高。

TurboAngle 的核心思路是先用随机对角旋转和快速 Walsh-Hadamard 变换把 KV 向量送入一个更适合量化的域,再对连续元素对的角度做均匀量化。它进一步引入逐层 early-boost 和 K/V 非对称范数量化,从而在零校准条件下实现近乎无损的 KV 压缩。

它值得正式收录,因为它没有继续在原始激活分布上做补丁,而是直接改变了量化问题的表述方式。这种“先把分布变成可量化域”的路线,对推理系统、缓存压缩和后续量化器设计都有清晰方法外溢。

它暂时不升到更高一级,原因在于当前证据仍主要集中在 perplexity 和量化配置分析上,真实下游任务、长上下文基准和系统级延迟收益还需要更完整的验证。

链接