Learning, Fast and Slow: Towards LLMs That Adapt Continually

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-05-13
arXiv: 2605.12484

收录解读

这篇论文提出 Fast-Slow Training，把 LLM 适应拆成两个时间尺度：prompt/context/agent layer 作为 fast weights，模型参数作为 slow weights，并在训练中交替优化。

核心问题是 parameter-only RL 容易把任务细节硬写进权重，造成分布漂移、灾难性遗忘和 plasticity loss；纯 prompt/context 优化适应快但性能上限较低。FST 试图让 fast weights 吸收任务特异性细节，让 slow weights 更专注于可迁移的通用能力。

实验覆盖 math、code 和 general reasoning，报告 FST 在样本效率、最终性能、KL drift、后续任务可学习性和 continual task switching 上都优于只更新权重的 RL，也高于只做 fast prompt optimization 的 GEPA。

它值得正式收录，因为它把 agent/context optimization、RL 后训练和 continual learning 统一成一个可复用训练范式，直接服务于长期自适应 LLM 和自改进 agent 系统。

链接

论文链接项目代码