Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

这篇论文重新审视长上下文推理的 sparse attention 路径：不从头训练原生稀疏模型，也不只做启发式 token eviction，而是利用 full-attention 模型已经存在的内在稀疏性。

方法识别少量真正需要完整长上下文处理的 retrieval heads，并用低维 token indexer 做相关 token 检索，同时采用 query-dependent dynamic top-p token budget。

RTPurbo 只需数百步适配即可把 full attention 转成高稀疏推理，在长上下文 benchmark 和 reasoning tasks 上保持近似无损，同时报告 1M context 下显著 prefill/decode 加速。

它值得正式收录，因为它提供了从已训练 full-attention 模型迁移到 sparse long-context inference 的低成本路径，影响长上下文 agent、RAG 和推理系统部署成本。