收录解读
长链推理把 KV cache 推成了部署瓶颈,但现有压缩方法往往依赖 recent post-RoPE queries 去估计 key importance。问题在于 query 在 RoPE 之后会随位置旋转,代表性 query 变得很少,导致 top-key selection 不稳定,尤其在需要长 reasoning trace 的设置里容易明显掉质。
TriAttention 的推进在于直接回到 pre-RoPE 空间,利用作者观察到的 Q/K concentration 现象:Q 和 K 向量围绕稳定的非零中心聚集,并由这些中心通过三角级数决定 query 对不同距离 key 的偏好。基于这个结构,方法不再只靠近邻 attention score,而是用由中心刻画出的 distance preference 再结合 Q/K norm 去估计 key importance,从而做更稳的 KV compression。
它值得正式收录,因为这不是一个靠工程调参换吞吐的局部技巧,而是给长 reasoning 的 KV importance estimation 提供了更可解释、更可迁移的几何接口。对 long-context inference、reasoning deployment、KV cache management 和 memory-efficient serving,这种 pre-RoPE 视角有明显方法外溢。
它暂时不升到更高一级,原因在于当前最强证据仍集中在特定长推理 benchmark 和 OpenClaw 部署场景。它已经是很强的方法论文,但是否会成为更广泛 KV compression 的默认思路,还需要更多模型家族与真实 serving 环境验证。