多模态基础模型 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.30265

核心要点

问题/背景
这篇论文指出 VLM 融合能力的一个隐性缺陷:语义等价的信息如果从文字载体换成图像载体,模型表现会明显下降。
方法/机制
作者把问题归因于训练语料中的角色偏置:文本通常是查询,图像通常是被查询的视觉参考,导致模型没有学到跨载体等价性。
结果/证据
LoMo 通过 local modality substitution,把单模态 prompt 改写成局部 interleaved multimodal supervision,训练模型在语义等价的 text/image carriers 之间保持表示不变。
收录价值
收录价值在于它把多模态融合从任务表现推进到 carrier invariance 这个更基础的训练目标,对 VLM、GUI/OCR、多模态推理都有外溢。
完整收录解读

这篇论文指出 VLM 融合能力的一个隐性缺陷:语义等价的信息如果从文字载体换成图像载体,模型表现会明显下降。

作者把问题归因于训练语料中的角色偏置:文本通常是查询,图像通常是被查询的视觉参考,导致模型没有学到跨载体等价性。

LoMo 通过 local modality substitution,把单模态 prompt 改写成局部 interleaved multimodal supervision,训练模型在语义等价的 text/image carriers 之间保持表示不变。

收录价值在于它把多模态融合从任务表现推进到 carrier invariance 这个更基础的训练目标,对 VLM、GUI/OCR、多模态推理都有外溢。

论文摘要

LoMo 识别 VLMs 中的载体敏感性:用一个语义上等价的渲染图像替代文本问题,会导致性能急剧下降。它提出局部模态替换作为一种架构无关的数据策划范式,用于训练等价文本和图像载体之间的跨模态表征不变性。

英文原文

LoMo identifies carrier sensitivity in VLMs: replacing a textual question with a semantically equivalent rendered-image counterpart can sharply degrade performance. It proposes local modality substitution as an architecture-agnostic data curation paradigm to train cross-modal representational invariance between equivalent text and image carriers.

相关论文

链接