Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models

多模态基础模型突破级有讲解视频

收录解读

## 问题与背景问题与背景：很多多模态大模型虽然会看图，但视觉表征仍然过度依赖文本对齐或语言监督，导致视觉能力本身并不扎实。

## 方法/新意方法/新意：这篇工作强调把 self-supervised visual learning 重新放回多模态大模型训练中心，让视觉端学到更强、更独立的表征，而不只是给语言模型提供附属输入。

## 意义/放在仓库中的位置意义/放在仓库中的位置：它属于多模态基础模型主线，和 Beyond Language Modeling、VL-JEPA 同属“不要只围着 token-level language modeling 转”的路线。

## 局限/为何不更高局限/为何不更高：它是强方向论文，但还没有像更完整的多模态路线图论文那样给出更强的统一架构与系统性证据，因此先归为突破性。