推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文重新审视长上下文推理的 sparse attention 路径:不从头训练原生稀疏模型,也不只做启发式 token eviction,而是利用 full-attention 模型已经存在的内在稀疏性。
方法识别少量真正需要完整长上下文处理的 retrieval heads,并用低维 token indexer 做相关 token 检索,同时采用 query-dependent dynamic top-p token budget。
RTPurbo 只需数百步适配即可把 full attention 转成高稀疏推理,在长上下文 benchmark 和 reasoning tasks 上保持近似无损,同时报告 1M context 下显著 prefill/decode 加速。
它值得正式收录,因为它提供了从已训练 full-attention 模型迁移到 sparse long-context inference 的低成本路径,影响长上下文 agent、RAG 和推理系统部署成本。