LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

LongMemEval-V2 把 agent memory 评测从用户偏好历史推进到“像有经验同事一样理解工作环境”。它关注环境 affordances、状态动态、工作流和反复出现的失败模式。

基准包含 451 个手工问题，覆盖 static state recall、dynamic state tracking、workflow knowledge、environment gotchas 和 premise awareness，历史轨迹可达 500 条与 115M tokens。

它值得正式收录，因为长期 agent 的记忆价值不只是回忆事实，而是把环境经验压缩成可复用 evidence，支撑后续任务执行。

它没有更高，是因为 benchmark 仍需与真实 agent task success、记忆更新策略和多环境迁移做更强闭环。