MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

Xiyu Ren; Zhaowei Wang; Yiming Du; Zhongwei Xie; Chi Liu; Xinlin Yang; Haoyue Feng; Wenjun Pan; Tianshi Zheng; Baixuan Xu; Zhengnan Li; Yangqiu Song; Ginny Wong; Simon See

推理、记忆与推理时控制突破级有讲解视频

策展与解读：DAST AI · 收录方法与内容透明度

发表时间: 2026-05-14
arXiv: 2605.14906

收录解读

MemLens 针对多模态长期记忆提出系统评测：问题来自多轮、多 session 对话，并明确要求模型利用图像证据、时间顺序、知识更新和拒答能力。

论文关键价值在于把 long-context LVLM 和 memory-augmented agents 放在同一评测接口下比较。结果显示长上下文模型短上下文表现好但随长度退化，记忆 agent 更稳定却容易损失视觉细节。

它值得正式收录，因为 agent memory 正在从文本检索转向多模态长期交互，MemLens 给出了可复用的能力拆分和跨架构对比基准。

它没有更高，是因为它仍是 benchmark；对真实个人助理、机器人和持续学习系统的工程闭环还需要后续系统验证。

原始摘要与中文对照

中文对照翻译

标题：MemLens：评估大型视觉语言模型中的多模态长期记忆。记忆对于大型视觉语言模型 (LVLMs) 处理长期的多模态交互至关重要，有两种方法方向提供这种能力：长上下文LVLMs和记忆增强型智能体。然而，目前没有基准对两者在真正需要多模态证据的问题上进行系统比较。为了弥补这一空白，我们引入了 MemLens，这是一个用于多模态多会话对话中记忆的综合性基准，包含

原始摘要

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: longcontext LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce M EM L ENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising

解读视频

视频观看页 B 站 YouTube

链接

论文链接