Multimodal And Generative Systems 突破级 有讲解视频
发表时间
2026-06-04
arXiv
2606.05008

核心要点

问题/背景
这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning,而缺少系统评估 memory 的接口:模型到底保留什么、是否忠实、是否受干扰影响。
方法/机制
M3Eval 基于认知心理学设计视频任务,分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠,以及符号记忆。
结果/证据
它值得收录,因为 multimodal memory 正在成为长视频理解和 agent 记忆的基础能力,这篇提供了明确 benchmark 和诊断维度,而不是单一任务分数。
收录价值
按当前规则,它属于 durable evaluation interface;局限是 benchmark 设计是否覆盖真实交互视频和更长时程记忆,需要后续扩展。
完整收录解读

这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning,而缺少系统评估 memory 的接口:模型到底保留什么、是否忠实、是否受干扰影响。

M3Eval 基于认知心理学设计视频任务,分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠,以及符号记忆。

它值得收录,因为 multimodal memory 正在成为长视频理解和 agent 记忆的基础能力,这篇提供了明确 benchmark 和诊断维度,而不是单一任务分数。

按当前规则,它属于 durable evaluation interface;局限是 benchmark 设计是否覆盖真实交互视频和更长时程记忆,需要后续扩展。

原始摘要与中文对照

中文对照翻译

M^3Eval:通过认知导向的视频任务进行多模态记忆评估。随着多模态模型向长视频理解发展,记忆成为一项关键能力。尽管在开发视频数据集和基准方面付出了巨大努力,但现有工作主要侧重于感知和推理,而没有系统地评估记忆:模型保留了什么,信息保留的忠实程度如何,以及在干扰下记忆的鲁棒性如何。为了弥补这一空白,我们引入了 M^3Eval,这是第一个用于探测多模态模型中不同记忆维度的综合评估框架和基准。我们的设计以认知心理学为基础,包含精心构建的任务,这些任务能够分离出记忆的关键方面。利用 M^3Eval,我们对代表性的多模态模型进行了广泛实验,揭示了它们普遍存在的弱点和独特的行为。我们发现,模型在处理并行视频流时难以保持解耦表示,表现出与人类记忆中观察到的显著不同的干扰模式,在空间域而非时间域中更可靠地定位记忆来源,并表现出有限的符号记忆。总的来说,我们的基准为未来的研究提供了宝贵的资源,而我们的发现则强调记忆作为一项基本但尚未充分探索的能力,并为设计多模态模型中更有效的记忆机制提供了见解。我们的代码和数据集可在 https://pku-value-lab.github.io/m3eval-homepage 获取。

原始摘要

As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M 3 Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M 3 Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.

解读视频

相关论文

链接