智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-25
arXiv
2605.26302

核心要点

问题/背景
这篇论文提出 agent lifespan engineering:部署中的 agent 即使权重冻结,其记忆库、压缩历史、事实修订和维护操作都会让系统状态持续变化。
方法/机制
AgingBench 把退化机制分成 compression aging、interference aging、revision aging 和 maintenance aging,并用 temporal dependency graphs 与 paired counterfactual probes 定位 write/retrieval/utilization 阶段的问题。
结果/证据
核心贡献不是又一个静态 benchmark,而是把 agent 可靠性定义为生命周期属性,要求评估系统在长期交互和维护后的退化形态。
收录价值
收录价值在于它为长期 agent memory/retrieval 系统提供了诊断语言和评测接口,正中本库 agent memory 与部署可靠性重点。
完整收录解读

这篇论文提出 agent lifespan engineering:部署中的 agent 即使权重冻结,其记忆库、压缩历史、事实修订和维护操作都会让系统状态持续变化。

AgingBench 把退化机制分成 compression aging、interference aging、revision aging 和 maintenance aging,并用 temporal dependency graphs 与 paired counterfactual probes 定位 write/retrieval/utilization 阶段的问题。

核心贡献不是又一个静态 benchmark,而是把 agent 可靠性定义为生命周期属性,要求评估系统在长期交互和维护后的退化形态。

收录价值在于它为长期 agent memory/retrieval 系统提供了诊断语言和评测接口,正中本库 agent memory 与部署可靠性重点。

论文摘要

AgingBench评估了长期运行部署的代理作为系统,其有效状态会随着压缩、检索增长、事实修订和维护而随时间变化。它引入了生命周期机制、时间依赖图、反事实探测器和诊断配置文件,用于代理内存管道的写入、检索和利用阶段。

英文原文

AgingBench evaluates long-lived deployed agents as systems whose effective state changes over time through compression, retrieval growth, fact revision, and maintenance. It introduces lifespan mechanisms, temporal dependency graphs, counterfactual probes, and diagnostic profiles for write, retrieval, and utilization stages of agent memory pipelines.

相关论文

链接