MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-14
arXiv: 2605.15128

收录解读

MemEye 针对 multimodal agent memory 的评价缺口：很多视觉记忆问题可以被 caption 或文字轨迹 shortcut 解答，无法验证 agent 是否保留了真正必要的视觉证据。

论文提出两个评价轴：decisive visual evidence granularity 从 scene-level 到 pixel-level，retrieved evidence usage 从单证据检索到 evolutionary synthesis，并构建 8 类生活场景任务和 371 个 mirrored questions。

它值得正式收录，因为它给多模态长期记忆提供了更严格的 evidence routing / temporal tracking / detail extraction 评测接口，能指导未来 agent memory 架构设计。

它没有更高，是因为主要贡献是 benchmark/evaluation，是否成为长期标准取决于社区采用和更多真实交互数据扩展。

链接

论文链接代码