智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-02-28
arXiv
2603.00680

收录解读

长时程 agent 的一个核心瓶颈,是上下文会随着交互持续膨胀,令性能、稳定性和成本一起恶化。许多方法通过外挂 memory module 来检索历史信息,但这会把“记忆管理”放在外部组件里,模型自身并没有学会如何根据任务目标主动保留、压缩和遗忘信息。

MemPO 把这件事改成 agent 自身的策略优化问题。它提出 self-memory policy optimization,让策略模型在与环境交互时自主总结和管理记忆,并通过基于 memory effectiveness 的 credit assignment 机制,学习哪些内容值得保留、哪些内容应当压缩或放弃。结果是在显著降低 token 消耗的同时,仍然保持甚至提升任务表现。

这篇工作值得收录,因为它把 long-horizon agent memory 从外部检索附属件推进到 policy-level memory control。对 self-improving agents、deployment-time efficiency 和长期交互系统来说,这是一种可复用的 memory-control pattern,和单纯做更强检索器不是一回事。

它没有升到更高一级,是因为当前仍主要聚焦 agent memory efficiency 与 performance trade-off 这条子线,还没有像某些更强架构论文那样改写整个长期记忆范式。它是非常扎实的推进,但暂时还属于强方法级。

链接