推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
LongMemEval-V2 把 agent memory 评测从用户偏好历史推进到“像有经验同事一样理解工作环境”。它关注环境 affordances、状态动态、工作流和反复出现的失败模式。
基准包含 451 个手工问题,覆盖 static state recall、dynamic state tracking、workflow knowledge、environment gotchas 和 premise awareness,历史轨迹可达 500 条与 115M tokens。
它值得正式收录,因为长期 agent 的记忆价值不只是回忆事实,而是把环境经验压缩成可复用 evidence,支撑后续任务执行。
它没有更高,是因为 benchmark 仍需与真实 agent task success、记忆更新策略和多环境迁移做更强闭环。