Multimodal And Generative Systems

M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

发表：2026-06-04 · 突破级

这篇论文指出长视频多模态模型评估长期偏重 perception 和 reasoning，而缺少系统评估 memory 的接口：模型到底保留什么、是否忠实、是否受干扰影响。 M3Eval 基于认知心理学设计视频任务，分别测试记忆保持、干扰下的稳健性、空间/时间 source grounding、并行视频流中的解缠...

Cosmos 3: Omnimodal World Models for Physical AI

发表：2026-06-01 · 突破级

这篇技术报告把世界模型从视频生成或单一 world-action model 推向 omnimodal backbone：同一模型族处理语言、图像、视频、音频和动作序列，用于具身智能和物理 AI。方法上，Cosmos 3 使用统一 mixture-of-transformers 架构支持灵活的输入输出组合，把...