推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文提出 Fast-Slow Training,把 LLM 适应拆成两个时间尺度:prompt/context/agent layer 作为 fast weights,模型参数作为 slow weights,并在训练中交替优化。
核心问题是 parameter-only RL 容易把任务细节硬写进权重,造成分布漂移、灾难性遗忘和 plasticity loss;纯 prompt/context 优化适应快但性能上限较低。FST 试图让 fast weights 吸收任务特异性细节,让 slow weights 更专注于可迁移的通用能力。
实验覆盖 math、code 和 general reasoning,报告 FST 在样本效率、最终性能、KL drift、后续任务可学习性和 continual task switching 上都优于只更新权重的 RL,也高于只做 fast prompt optimization 的 GEPA。
它值得正式收录,因为它把 agent/context optimization、RL 后训练和 continual learning 统一成一个可复用训练范式,直接服务于长期自适应 LLM 和自改进 agent 系统。