推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-13
arXiv
2604.10898

收录解读

ZoomR 关注长推理输出时的 KV cache 成本。现有 KV cache 优化多压缩长输入上下文,却保留完整生成过程 KV;但复杂推理往往产生很长中间 thoughts,导致输出侧 cache 成为瓶颈。

论文让模型把冗长思维动态压缩成 summaries,并用多粒度 KV retrieval 策略在 summary index 和细粒度历史之间 zoom in/out。这样在保留必要推理细节的同时,避免完整保存每一步 verbose thought 的 KV。

它值得收录,是因为它把 long reasoning 的状态管理从“全量保存输出 KV”改成“摘要索引 + 按需细节取回”的记忆层级。这对长链推理、agent 轨迹和推理时 scaling 的系统成本都有复用价值。

局限在于摘要质量和取回策略可能影响严谨推理;在数学证明、代码调试等细节敏感任务上还需要更细分析。

链接