LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

多模态基础模型突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.30265

核心要点

问题/背景: 这篇论文指出 VLM 融合能力的一个隐性缺陷：语义等价的信息如果从文字载体换成图像载体，模型表现会明显下降。
方法/机制: 作者把问题归因于训练语料中的角色偏置：文本通常是查询，图像通常是被查询的视觉参考，导致模型没有学到跨载体等价性。
结果/证据: LoMo 通过 local modality substitution，把单模态 prompt 改写成局部 interleaved multimodal supervision，训练模型在语义等价的 text/image carriers 之间保持表示不变。
收录价值: 收录价值在于它把多模态融合从任务表现推进到 carrier invariance 这个更基础的训练目标，对 VLM、GUI/OCR、多模态推理都有外溢。

完整收录解读

这篇论文指出 VLM 融合能力的一个隐性缺陷：语义等价的信息如果从文字载体换成图像载体，模型表现会明显下降。

作者把问题归因于训练语料中的角色偏置：文本通常是查询，图像通常是被查询的视觉参考，导致模型没有学到跨载体等价性。

LoMo 通过 local modality substitution，把单模态 prompt 改写成局部 interleaved multimodal supervision，训练模型在语义等价的 text/image carriers 之间保持表示不变。

收录价值在于它把多模态融合从任务表现推进到 carrier invariance 这个更基础的训练目标，对 VLM、GUI/OCR、多模态推理都有外溢。

论文摘要

LoMo 识别 VLMs 中的载体敏感性：用一个语义上等价的渲染图像替代文本问题，会导致性能急剧下降。它提出局部模态替换作为一种架构无关的数据策划范式，用于训练等价文本和图像载体之间的跨模态表征不变性。

英文原文

LoMo identifies carrier sensitivity in VLMs: replacing a textual question with a semantically equivalent rendered-image counterpart can sharply degrade performance. It proposes local modality substitution as an architecture-agnostic data curation paradigm to train cross-modal representational invariance between equivalent text and image carriers.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接