多模态基础模型
突破级
有讲解视频
收录解读
## 问题与背景 问题与背景:很多多模态大模型虽然会看图,但视觉表征仍然过度依赖文本对齐或语言监督,导致视觉能力本身并不扎实。
## 方法/新意 方法/新意:这篇工作强调把 self-supervised visual learning 重新放回多模态大模型训练中心,让视觉端学到更强、更独立的表征,而不只是给语言模型提供附属输入。
## 意义/放在仓库中的位置 意义/放在仓库中的位置:它属于多模态基础模型主线,和 Beyond Language Modeling、VL-JEPA 同属“不要只围着 token-level language modeling 转”的路线。
## 局限/为何不更高 局限/为何不更高:它是强方向论文,但还没有像更完整的多模态路线图论文那样给出更强的统一架构与系统性证据,因此先归为突破性。