智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文把 agent memory 从相似度检索式 episodic memory / skill library 推进一步:记忆不再只是拿回静态条目,而是由独立模型按当前上下文生成可执行 guidance。
核心机制是 Mem-π 模型同时学习 when 和 what:什么时候不该干预、什么时候生成简洁有效的指导,以及指导内容应该是什么。作者用 decision-content decoupled RL 训练这个生成式记忆策略,避免把是否使用记忆和记忆内容质量混在一起。
实验覆盖 web navigation、terminal tool use 和 text-based embodied interaction 等 agentic benchmarks,并报告在 web navigation 上相对提升超过 30%,说明它不是单点 QA 记忆,而是面向复杂执行任务的 memory policy。
它值得正式收录,因为它给 agent memory 一个可复用的新接口:从 retrieve static memories 转向 generate context-conditioned operational guidance。这对长期 agent、工具使用、技能迁移和 memory controller 设计都有直接工程和研究价值。