推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
ThriftAttention 处理长上下文推理中的注意力成本问题:全 FP16/FP8 计算昂贵,而统一低精度又会破坏关键 token 或关键头的精度。
论文提出 selective mixed precision,让 attention 中不同位置、头或计算路径按重要性使用 FP4 与更高精度混合,从而降低内存带宽和计算成本。
这种方法属于 long-context inference infrastructure,直接服务于长程 agent、RAG、代码库理解和科学文献分析等上下文密集任务。
它值得正式收录,因为低比特注意力是推理成本曲线的重要方向,ThriftAttention 给出了比全局量化更细粒度的控制 primitive。