AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-26
arXiv: 2602.22769

收录解读

这篇论文解决的是 agent memory 评测里的一个真实缺口：现有基准过度围绕人机对话，无法覆盖真实 agent 在环境交互中产生的大量机器生成轨迹。作者把问题重新定义为长时程 agent-environment memory，而不是聊天历史检索，这个 framing 是有价值的。

AMA-Bench 由两部分组成：真实 agentic application 轨迹加专家问答，以及可扩展到任意长度的合成轨迹与规则问答。更重要的是，论文不止给 benchmark，还分析了为什么现有 memory systems 掉分，指出缺因果结构、客观信息和过度依赖相似度检索的问题，并给出带 causality graph 和 tool-augmented retrieval 的 AMA-Agent 作为对照系统。

这使它不只是又一个 benchmark，而是 agent memory 方向里一个更接近实际工作负载的评测框架。对仓库的 agent memory 主线来说，它有明显的可复用价值，因为它把“长记忆”的评测目标从对话记忆扩展到了持续环境交互与机器轨迹。

它暂时不升得更高，原因是目前还是单篇 arXiv 基准与系统论文，尚未形成领域公认标准，也还缺少更广泛的外部复现和社区采纳。当前更适合定义为一个强 benchmark/workflow 条目，而不是已经定型的 canonical reference。

链接

论文链接