LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Di Wu; Hongwei Wang; Wenhao Yu; Yuwei Zhang; Kai-Wei Chang; Dong Yu

智能体与自主科学颠覆级有讲解视频

发表时间: 2024-10-14
arXiv: 2410.10813

收录解读

面向长期交互的 chat assistant，真正关键的能力不是单轮问答，而是跨很多 session 持续记住用户事实、更新旧知识、处理时间变化并在无证据时拒答。LongMemEval 针对的正是这个现实缺口：此前很多记忆评测要么上下文过短，要么缺少知识更新与多 session 结构，导致系统很难被逼近真实长期助理场景。

这篇工作的核心贡献有两层。第一层是 benchmark 本身：它把长期记忆能力拆成信息提取、多 session 推理、时间推理、知识更新和 abstention 五个维度，并构造出可自由扩展的长历史聊天环境。第二层是方法分析框架：作者把 memory system 明确分解为 indexing、retrieval、reading 等阶段，并从 value granularity、key expansion、time-aware query expansion 等设计点系统比较，使它不只是“一个榜”，而是一个能反向指导 memory architecture 设计的评测接口。

对这个仓库来说，它的重要性不在于又多了一个 benchmark，而在于它把 chat assistant long-term memory 评测从模糊的“能不能记住”推进成了结构化设计问题。后续很多 agent memory、profile memory、context infrastructure 和 update-aware retrieval 工作都直接或间接围绕这几个维度展开，因此它已经具备 durable reference 的地位。

它目前定为 disruptive 而不是更高一级，因为它主要重排的是 agent memory evaluation 与系统设计，而不是直接提出一个普适的新学习范式；同时其数据生成和评测框架仍然主要聚焦 user-assistant chat assistant 场景，离更广的 embodied、multi-agent、tool-interactive lifelong memory 还有边界。

解读视频

视频观看页 B 站 YouTube

链接

论文链接