智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-17
arXiv
2603.16856

收录解读

这篇论文针对的是部署后语言模型如何持续学习的问题。当前大模型能力的提升几乎全部发生在离线阶段,依赖人工标注的 SFT 或模拟环境里的 RL,而真实部署中积累的大量交互经验往往只被当作日志保存,无法转化为稳定的能力改进。作者因此把重点放在一个更现实的 setting 上:只有文本反馈、没有显式标量奖励、也不要求训练时访问用户环境。

方法上的核心是 OEL(Online Experiential Learning)闭环。第一阶段,从用户侧交互轨迹中提取可迁移的经验知识,而不是直接拿原始轨迹学习;第二阶段,利用 on-policy context distillation 把这些经验知识内化到模型参数中。论文的一个重要结论是:原始交互轨迹本身噪声很大,必须先抽象成规则、策略或经验;另一个关键发现是同策略一致性很重要,小模型从自己轨迹中总结的经验往往比大模型替它提炼的高级经验更有效。

这篇工作值得正式收录,因为它不是普通的 post-training recipe,而是提出了一个较完整的部署后在线学习框架:交互、经验抽取、知识内化、再交互形成闭环。它对 agent memory、online adaptation、experience distillation 和 continual LM improvement 都有明确外溢,也契合仓库目前对长期运行 AI 系统的关注方向。

它目前适合定为 breakthrough,而不是更高一级。原因是实验场景仍主要集中在文字游戏等较受控环境上,虽然结果稳定且洞见很强,但距离成为开放式真实部署环境中的默认方案还差更复杂任务和多模态场景的验证。

链接