智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-29
arXiv
2605.29341

收录解读

这篇论文针对 agent memory 评测的一个关键缺口:真实长程 agent 不只是回忆静态对话,而是要在行动中跟踪世界变化、更新过期记忆,并在决策时调出证据。

WorldMemArena 把记忆写入、维护、检索和使用拆开,通过 action-world interaction 暴露多模态 agent memory 的具体故障点,而不是只给一个末端任务分数。

这种评测接口对本库很重要,因为 agent memory 正从 RAG 式回忆走向动态世界状态管理,需要可定位、可诊断的 benchmark。

它值得收录为 agent memory 方向的基础评测候选,可直接服务后续记忆系统、长期任务 agent 和多模态环境 agent 的比较。

链接