智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文针对 agent memory 评测的一个关键缺口:真实长程 agent 不只是回忆静态对话,而是要在行动中跟踪世界变化、更新过期记忆,并在决策时调出证据。
WorldMemArena 把记忆写入、维护、检索和使用拆开,通过 action-world interaction 暴露多模态 agent memory 的具体故障点,而不是只给一个末端任务分数。
这种评测接口对本库很重要,因为 agent memory 正从 RAG 式回忆走向动态世界状态管理,需要可定位、可诊断的 benchmark。
它值得收录为 agent memory 方向的基础评测候选,可直接服务后续记忆系统、长期任务 agent 和多模态环境 agent 的比较。