Mem-π: Adaptive Memory through Learning When and What to Generate

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-20
arXiv: 2605.21463

收录解读

这篇论文把 agent memory 从相似度检索式 episodic memory / skill library 推进一步：记忆不再只是拿回静态条目，而是由独立模型按当前上下文生成可执行 guidance。

核心机制是 Mem-π 模型同时学习 when 和 what：什么时候不该干预、什么时候生成简洁有效的指导，以及指导内容应该是什么。作者用 decision-content decoupled RL 训练这个生成式记忆策略，避免把是否使用记忆和记忆内容质量混在一起。

实验覆盖 web navigation、terminal tool use 和 text-based embodied interaction 等 agentic benchmarks，并报告在 web navigation 上相对提升超过 30%，说明它不是单点 QA 记忆，而是面向复杂执行任务的 memory policy。

它值得正式收录，因为它给 agent memory 一个可复用的新接口：从 retrieve static memories 转向 generate context-conditioned operational guidance。这对长期 agent、工具使用、技能迁移和 memory controller 设计都有直接工程和研究价值。

链接

论文链接代码