Language Models Need Sleep

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

这篇论文把长上下文处理重新表述为 sleep-like consolidation：模型不必无限增长 KV cache，而是周期性把近期上下文压入可持续状态。

方法在 sleep 阶段对累积上下文做离线 recurrent passes，并通过 learned local rule 更新 SSM blocks 中的 fast weights，然后清空 KV cache。

wake-time 预测保持低延迟，而额外计算被移动到 sleep 阶段；实验覆盖 cellular automata、多跳图检索和数学推理等需要深层上下文整合的任务。

它值得正式收录，因为它把记忆压缩、SSM fast weights、长上下文和测试时计算调度连接成新的模型运行时模式。