M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning,而缺少系统评估 memory 的接口:模型到底保留什么、是否忠实、是否受干扰影响。 M3Eval 基于认知心理学设计视频任务,分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠...
这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning,而缺少系统评估 memory 的接口:模型到底保留什么、是否忠实、是否受干扰影响。 M3Eval 基于认知心理学设计视频任务,分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠...
这篇技术报告把世界模型从视频生成或单一 world-action model 推向 omnimodal backbone:同一模型族处理语言、图像、视频、音频和动作序列,用于具身智能和物理 AI。 方法上,Cosmos 3 使用统一 mixture-of-transformers 架构支持灵活的输入输出组合,把...