智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-12
arXiv
2605.12061

核心要点

问题/背景
SAGE 把 agent long-term memory 从静态 RAG/GraphRAG 检索层推进到动态、自演化的 graph-memory substrate。核心问题不是单次召回,而是如何从局部线索恢复完整 evidence chain,并让记忆结构在使用反馈中持续变好。
方法/机制
关键机制是 writer-reader loop:memory writer 从交互历史增量构建结构化图记忆;Graph Foundation Model-based reader 执行检索,并把检索/回答反馈回 writer,形成写入、读取、更新的闭环。
结果/证据
评测覆盖 multi-hop QA、open-domain retrieval、domain-specific review QA、LongMemEval 和 HaluMem。论文报告两轮 self-evolution 后 multi-hop QA 平均排名最好,NQ zero-shot Recall@2/5 达到 82.5/91.6,并改善长期记忆和幻觉诊断指标。
收录价值
收录价值在于它提出了一个可复用的 agent memory primitive:结构化图记忆 + 关联式读取 + reader-writer feedback + self-evolution。这个模式对长期代理、个人记忆、研究助手、知识工作流和 hallucination-aware memory 都有直接工程外溢。
完整收录解读

SAGE 把 agent long-term memory 从静态 RAG/GraphRAG 检索层推进到动态、自演化的 graph-memory substrate。核心问题不是单次召回,而是如何从局部线索恢复完整 evidence chain,并让记忆结构在使用反馈中持续变好。

关键机制是 writer-reader loop:memory writer 从交互历史增量构建结构化图记忆;Graph Foundation Model-based reader 执行检索,并把检索/回答反馈回 writer,形成写入、读取、更新的闭环。

评测覆盖 multi-hop QA、open-domain retrieval、domain-specific review QA、LongMemEval 和 HaluMem。论文报告两轮 self-evolution 后 multi-hop QA 平均排名最好,NQ zero-shot Recall@2/5 达到 82.5/91.6,并改善长期记忆和幻觉诊断指标。

收录价值在于它提出了一个可复用的 agent memory primitive:结构化图记忆 + 关联式读取 + reader-writer feedback + self-evolution。这个模式对长期代理、个人记忆、研究助手、知识工作流和 hallucination-aware memory 都有直接工程外溢。

论文摘要

长期记忆正在成为语言代理的核心瓶颈。现有的RAG和GraphRAG系统主要将记忆图视为静态检索中间件,从而限制了它们从不完整线索中恢复完整证据链的能力,无法利用可重用的图结构角色,以及通过下游反馈改进记忆本身。SAGE引入了一个自进化型代理式图内存引擎,它将一个记忆写入器与基于Graph Foundation模型(GFM)的记忆读取器相结合,后者从交互历史中逐步构建结构化记忆图,并向写入器检索和反馈信号。在多跳问答、开放域检索、特定领域评论问答、LongMemEval和HaluMem等任务中的实验表明,SAGE在证据恢复、地理解、检索效率和幻觉诊断方面均有所改善。

英文原文

Long-term memory is becoming a central bottleneck for language agents. Existing RAG and GraphRAG systems largely treat memory graphs as static retrieval middleware, limiting their ability to recover complete evidence chains from partial cues, exploit reusable graph-structural roles, and improve the memory itself through downstream feedback. SAGE introduces a self-evolving agentic graph-memory engine that couples a memory writer, which incrementally constructs structured graph memory from interaction histories, with a Graph Foundation Model-based memory reader that retrieves and feeds back signals to the writer. Experiments across multi-hop QA, open-domain retrieval, domain-specific review QA, LongMemEval, and HaluMem report improved evidence recovery, grounding, retrieval efficiency, and hallucination diagnostics.

相关论文

链接