智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-18
arXiv
2605.18565

收录解读

LongMINT 面向真实 agent 长期运行中的核心问题:记忆不是静态事实检索,而是长期上下文中不断更新、互相干扰、需要多目标聚合推理的动态系统。

Benchmark 覆盖 state tracking、多轮对话、Wikipedia revisions 和 GitHub commits 等场景,包含 15.6k QA pairs,平均上下文约 138.8k tokens,最长到 1.8M tokens。

论文评测 long-context LLM、RAG 和 memory-augmented agent frameworks 等 7 类系统,发现平均准确率只有 27.9%,尤其在多证据聚合和旧事实被后续事实干扰时显著失败。

它值得正式收录,因为它把 agent memory evaluation 从静态 recall 推进到 long-horizon interference 和 evolving memory 的问题定义,能长期作为 memory agent 系统的压力测试接口。

链接