ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

ZoomR 关注长推理输出时的 KV cache 成本。现有 KV cache 优化多压缩长输入上下文，却保留完整生成过程 KV；但复杂推理往往产生很长中间 thoughts，导致输出侧 cache 成为瓶颈。

论文让模型把冗长思维动态压缩成 summaries，并用多粒度 KV retrieval 策略在 summary index 和细粒度历史之间 zoom in/out。这样在保留必要推理细节的同时，避免完整保存每一步 verbose thought 的 KV。

它值得收录，是因为它把 long reasoning 的状态管理从“全量保存输出 KV”改成“摘要索引 + 按需细节取回”的记忆层级。这对长链推理、agent 轨迹和推理时 scaling 的系统成本都有复用价值。

局限在于摘要质量和取回策略可能影响严谨推理；在数学证明、代码调试等细节敏感任务上还需要更细分析。