智能体与自主科学
突破级
暂无讲解视频
收录解读
MemEye 针对 multimodal agent memory 的评价缺口:很多视觉记忆问题可以被 caption 或文字轨迹 shortcut 解答,无法验证 agent 是否保留了真正必要的视觉证据。
论文提出两个评价轴:decisive visual evidence granularity 从 scene-level 到 pixel-level,retrieved evidence usage 从单证据检索到 evolutionary synthesis,并构建 8 类生活场景任务和 371 个 mirrored questions。
它值得正式收录,因为它给多模态长期记忆提供了更严格的 evidence routing / temporal tracking / detail extraction 评测接口,能指导未来 agent memory 架构设计。
它没有更高,是因为主要贡献是 benchmark/evaluation,是否成为长期标准取决于社区采用和更多真实交互数据扩展。