Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

智能体与自主科学突破级暂无讲解视频

发表时间: 2025-08-21
arXiv: 2508.16153

收录解读

这篇论文处理的是 agent 适应性的一个实际瓶颈：当任务变化很快、环境很开放时，仅靠微调大模型本身既昂贵又慢，而单纯提示词又难以持续积累经验。作者提出一个替代方向：不去 fine-tune LLM 参数，而是通过记忆与上下文机制让 agent 在交互中持续改善。

Memento 的核心不是更强的模型，而是一个 memory-augmented MDP 视角，把 agent 过去的轨迹转成可检索、可更新、可决策消费的长期记忆，从而在不改动底层 LLM 参数的情况下提升行为质量。它的价值在于给 agent continual improvement 提供了一条与参数训练解耦的路线，这与当前越来越重视 memory systems 的 agent 研究方向高度一致。

这项工作值得收录，因为它直接回答了“如何在不 fine-tune LLM 的前提下持续优化 agent”这个关键问题。相比普通 memory trick，这篇的 framing 更完整，也更接近可复用训练/部署范式，因此值得作为 agent memory 主线里的正式条目保留。

它还不到更高一级，原因是当前提升仍主要建立在特定 benchmark 和 memory 管线设计上，距离成为 agent 系统的默认架构层还有距离。更准确的定位是一篇高质量 breakthrough。

链接

论文链接