推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-05-12
arXiv
2605.12493

收录解读

LongMemEval-V2 把 agent memory 评测从用户偏好历史推进到“像有经验同事一样理解工作环境”。它关注环境 affordances、状态动态、工作流和反复出现的失败模式。

基准包含 451 个手工问题,覆盖 static state recall、dynamic state tracking、workflow knowledge、environment gotchas 和 premise awareness,历史轨迹可达 500 条与 115M tokens。

它值得正式收录,因为长期 agent 的记忆价值不只是回忆事实,而是把环境经验压缩成可复用 evidence,支撑后续任务执行。

它没有更高,是因为 benchmark 仍需与真实 agent task success、记忆更新策略和多环境迁移做更强闭环。

链接