多模态基础模型
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇论文指出 VLM 融合能力的一个隐性缺陷:语义等价的信息如果从文字载体换成图像载体,模型表现会明显下降。
- 方法/机制
- 作者把问题归因于训练语料中的角色偏置:文本通常是查询,图像通常是被查询的视觉参考,导致模型没有学到跨载体等价性。
- 结果/证据
- LoMo 通过 local modality substitution,把单模态 prompt 改写成局部 interleaved multimodal supervision,训练模型在语义等价的 text/image carriers 之间保持表示不变。
- 收录价值
- 收录价值在于它把多模态融合从任务表现推进到 carrier invariance 这个更基础的训练目标,对 VLM、GUI/OCR、多模态推理都有外溢。
论文摘要
LoMo 识别 VLMs 中的载体敏感性:用一个语义上等价的渲染图像替代文本问题,会导致性能急剧下降。它提出局部模态替换作为一种架构无关的数据策划范式,用于训练等价文本和图像载体之间的跨模态表征不变性。
英文原文
LoMo identifies carrier sensitivity in VLMs: replacing a textual question with a semantically equivalent rendered-image counterpart can sharply degrade performance. It proposes local modality substitution as an architecture-agnostic data curation paradigm to train cross-modal representational invariance between equivalent text and image carriers.