对应论文
M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
视频简介
这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning,而缺少系统评估 memory 的接口:模型到底保留什么、是否忠实、是否受干扰影响。 M3Eval 基于认知心理学设计视频任务,分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠,以及符号记忆。 它值得收录,因为 multimodal memory 正在成为长视频理解和 agent 记忆的基础能力,这篇提供了明确 benchmark 和诊断维度,而不是单一任务分数。 按当前规则,它属于 durable evaluation interface;局限是 benchmark 设计是否覆盖真实交互视频和更长时程记忆,需要后续扩展。