MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-28
arXiv: 2603.00680

收录解读

长时程 agent 的一个核心瓶颈，是上下文会随着交互持续膨胀，令性能、稳定性和成本一起恶化。许多方法通过外挂 memory module 来检索历史信息，但这会把“记忆管理”放在外部组件里，模型自身并没有学会如何根据任务目标主动保留、压缩和遗忘信息。

MemPO 把这件事改成 agent 自身的策略优化问题。它提出 self-memory policy optimization，让策略模型在与环境交互时自主总结和管理记忆，并通过基于 memory effectiveness 的 credit assignment 机制，学习哪些内容值得保留、哪些内容应当压缩或放弃。结果是在显著降低 token 消耗的同时，仍然保持甚至提升任务表现。

这篇工作值得收录，因为它把 long-horizon agent memory 从外部检索附属件推进到 policy-level memory control。对 self-improving agents、deployment-time efficiency 和长期交互系统来说，这是一种可复用的 memory-control pattern，和单纯做更强检索器不是一回事。

它没有升到更高一级，是因为当前仍主要聚焦 agent memory efficiency 与 performance trade-off 这条子线，还没有像某些更强架构论文那样改写整个长期记忆范式。它是非常扎实的推进，但暂时还属于强方法级。

链接

论文链接