SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

多模态基础模型突破级暂无讲解视频

收录解读

SenseNova-U1 针对多模态模型的 understanding/generation 分裂，提出 NEO-unify 架构，把理解和生成作为同一底层过程的协同视图。

它不只是视觉问答或图像生成模型，而是试图把文本、视觉理解、图像生成、agentic decision-making、空间智能以及初步 VLA/world model 能力统一起来。

它值得正式收录，因为本库重视 native multimodal agent foundation model 和 unified understanding-generation architecture。该报告提供了体系结构、数据和训练细节。

它没有更高，是因为模型报告的独立复现、开放程度和真实 agent/世界模型能力仍需观察。