怎样让生成视频不再违反物理规律？英伟达发布 Cosmos 3 统一时空刻度 | DAST Papers

对应论文

Cosmos 3: Omnimodal World Models for Physical AI

视频简介

这篇技术报告把世界模型从视频生成或单一 world-action model 推向 omnimodal backbone：同一模型族处理语言、图像、视频、音频和动作序列，用于具身智能和物理 AI。方法上，Cosmos 3 使用统一 mixture-of-transformers 架构支持灵活的输入输出组合，把 VLM、视频生成器、世界模拟器和策略模型的接口合并到一个系统框架中。它值得收录，因为它代表世界模型基础设施的一次系统级整合：论文同时给出模型、数据、评测和开源发布，对具身智能、机器人仿真、视频生成和物理世界推理都有复用价值。按当前规则，它属于高价值 world-modeling 系统论文；但作为大型技术报告，长期影响还取决于开源权重、评测可复现性和社区在真实机器人/仿真闭环中的采用程度。

外部视频链接

论文链接

论文详情页