D-MEM: Dopamine-Gated Agentic Memory via Reward Prediction Error Routing

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-15
arXiv: 2603.14597

收录解读

长程 LLM agent memory 的一个现实瓶颈，是很多 append-and-evolve 体系在写入和结构更新时很快走向高 token 开销和平方级延迟。随着记忆规模增长，真正需要解决的已不是‘能不能存’，而是哪些输入值得触发代价高昂的认知重组。

D-MEM 的核心贡献，是用 reward prediction error 风格的 fast/slow routing 去管理记忆写入。它先用轻量 Critic Router 评估 surprise 和 utility，把低 RPE 的常规输入直接旁路或放入 O(1) buffer，而把高 RPE 的事实冲突、偏好变化等输入送入较慢的 memory evolution pipeline 去重塑知识图谱。论文还补上了 LoCoMo-Noise 这一更贴近真实对话噪声条件的评测设定。

它值得正式收录，因为这不是普通 memory schema，而是 memory-control primitive。对 agent memory 系统而言，什么时候触发昂贵的结构更新、如何把短期缓存和长期重组分层，是一类会反复出现的核心问题；D-MEM 给出了一套清楚、可复用且代价模型明确的答案。

它没有升到更高一级，是因为当前主要证据仍集中在对话型长程记忆 benchmark 和作者定义的噪声设定，跨更多 agent workflow 与真实部署生态的外部采用还不够。现阶段它是很强的 memory-routing 方案，但还没到更高一级。

解读视频

B 站 YouTube

链接

论文链接