对应论文

Cosmos 3: Omnimodal World Models for Physical AI

视频简介

这篇技术报告把世界模型从视频生成或单一 world-action model 推向 omnimodal backbone:同一模型族处理语言、图像、视频、音频和动作序列,用于具身智能和物理 AI。 方法上,Cosmos 3 使用统一 mixture-of-transformers 架构支持灵活的输入输出组合,把 VLM、视频生成器、世界模拟器和策略模型的接口合并到一个系统框架中。 它值得收录,因为它代表世界模型基础设施的一次系统级整合:论文同时给出模型、数据、评测和开源发布,对具身智能、机器人仿真、视频生成和物理世界推理都有复用价值。 按当前规则,它属于高价值 world-modeling 系统论文;但作为大型技术报告,长期影响还取决于开源权重、评测可复现性和社区在真实机器人/仿真闭环中的采用程度。

外部视频链接

论文链接