LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

智能体与自主科学突破级暂无讲解视频

收录解读

LongMINT 面向真实 agent 长期运行中的核心问题：记忆不是静态事实检索，而是长期上下文中不断更新、互相干扰、需要多目标聚合推理的动态系统。

Benchmark 覆盖 state tracking、多轮对话、Wikipedia revisions 和 GitHub commits 等场景，包含 15.6k QA pairs，平均上下文约 138.8k tokens，最长到 1.8M tokens。

论文评测 long-context LLM、RAG 和 memory-augmented agent frameworks 等 7 类系统，发现平均准确率只有 27.9%，尤其在多证据聚合和旧事实被后续事实干扰时显著失败。

它值得正式收录，因为它把 agent memory evaluation 从静态 recall 推进到 long-horizon interference 和 evolving memory 的问题定义，能长期作为 memory agent 系统的压力测试接口。