TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-04-06
arXiv: 2604.04921

收录解读

长链推理把 KV cache 推成了部署瓶颈，但现有压缩方法往往依赖 recent post-RoPE queries 去估计 key importance。问题在于 query 在 RoPE 之后会随位置旋转，代表性 query 变得很少，导致 top-key selection 不稳定，尤其在需要长 reasoning trace 的设置里容易明显掉质。

TriAttention 的推进在于直接回到 pre-RoPE 空间，利用作者观察到的 Q/K concentration 现象：Q 和 K 向量围绕稳定的非零中心聚集，并由这些中心通过三角级数决定 query 对不同距离 key 的偏好。基于这个结构，方法不再只靠近邻 attention score，而是用由中心刻画出的 distance preference 再结合 Q/K norm 去估计 key importance，从而做更稳的 KV compression。

它值得正式收录，因为这不是一个靠工程调参换吞吐的局部技巧，而是给长 reasoning 的 KV importance estimation 提供了更可解释、更可迁移的几何接口。对 long-context inference、reasoning deployment、KV cache management 和 memory-efficient serving，这种 pre-RoPE 视角有明显方法外溢。

它暂时不升到更高一级，原因在于当前最强证据仍集中在特定长推理 benchmark 和 OpenClaw 部署场景。它已经是很强的方法论文，但是否会成为更广泛 KV compression 的默认思路，还需要更多模型家族与真实 serving 环境验证。

解读视频

B 站 YouTube

链接

论文链接