WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文针对 agent memory 评测的一个关键缺口：真实长程 agent 不只是回忆静态对话，而是要在行动中跟踪世界变化、更新过期记忆，并在决策时调出证据。

WorldMemArena 把记忆写入、维护、检索和使用拆开，通过 action-world interaction 暴露多模态 agent memory 的具体故障点，而不是只给一个末端任务分数。

这种评测接口对本库很重要，因为 agent memory 正从 RAG 式回忆走向动态世界状态管理，需要可定位、可诊断的 benchmark。

它值得收录为 agent memory 方向的基础评测候选，可直接服务后续记忆系统、长期任务 agent 和多模态环境 agent 的比较。