推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-05-25
arXiv
2605.26099

收录解读

这篇论文把长上下文处理重新表述为 sleep-like consolidation:模型不必无限增长 KV cache,而是周期性把近期上下文压入可持续状态。

方法在 sleep 阶段对累积上下文做离线 recurrent passes,并通过 learned local rule 更新 SSM blocks 中的 fast weights,然后清空 KV cache。

wake-time 预测保持低延迟,而额外计算被移动到 sleep 阶段;实验覆盖 cellular automata、多跳图检索和数学推理等需要深层上下文整合的任务。

它值得正式收录,因为它把记忆压缩、SSM fast weights、长上下文和测试时计算调度连接成新的模型运行时模式。

链接