多模态基础模型 突破级 暂无讲解视频
发表时间
2026-05-12
arXiv
2605.12500

收录解读

SenseNova-U1 针对多模态模型的 understanding/generation 分裂,提出 NEO-unify 架构,把理解和生成作为同一底层过程的协同视图。

它不只是视觉问答或图像生成模型,而是试图把文本、视觉理解、图像生成、agentic decision-making、空间智能以及初步 VLA/world model 能力统一起来。

它值得正式收录,因为本库重视 native multimodal agent foundation model 和 unified understanding-generation architecture。该报告提供了体系结构、数据和训练细节。

它没有更高,是因为模型报告的独立复现、开放程度和真实 agent/世界模型能力仍需观察。

链接