为什么AI看完视频转头就忘？北大联手威斯康星用M3Eval测出GPT精度仅剩27% | DAST Papers

对应论文

M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

视频简介

这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning，而缺少系统评估 memory 的接口：模型到底保留什么、是否忠实、是否受干扰影响。 M3Eval 基于认知心理学设计视频任务，分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠，以及符号记忆。它值得收录，因为 multimodal memory 正在成为长视频理解和 agent 记忆的基础能力，这篇提供了明确 benchmark 和诊断维度，而不是单一任务分数。按当前规则，它属于 durable evaluation interface；局限是 benchmark 设计是否覆盖真实交互视频和更长时程记忆，需要后续扩展。

外部视频链接

论文链接

论文详情页