多模态基础模型 突破级 有讲解视频
发表时间
2026-03-30
arXiv
2603.28554

收录解读

文档理解系统通常把检索和生成拆成两套模型来做,这会同时增加显存占用、服务复杂度和系统维护成本。Hydra 针对这一长期存在的双模型结构问题,尝试把视觉文档检索与文档问答生成统一到同一个视觉语言模型中,让同一底座同时承担文档表示和回答生成两种职责。

这篇工作的核心做法是给基座 VLM 增加一个可切换的 retrieval LoRA:开启时输出适合 late-interaction 检索的多向量表示,关闭时恢复生成路径。作者特别强调了三个维持生成质量所必须满足的工程条件,包括 attention mode 恢复、lm_head 保留和 KV-cache 兼容解码,并用大规模样本比较表明切换后生成结果几乎与独立基座保持一致。

它的价值不只在文档任务分数,而在于提出了一种更耐久的多模态系统接口:检索与生成不必天然对应两套模型。对仓库关注的多模态基础模型、统一接口和部署工作流而言,这是一种有可复用性的系统模式;同时 41% 的峰值显存下降也使它具备明确的工程现实意义。

目前证据仍主要来自 arXiv 阶段和单次训练结果,部分提升集中在少数 benchmark 子集,作者自己也承认需要多种子实验进一步确认趋势。它已经足够作为强方法收录,但还没到重写该方向默认架构的程度,因此维持在 breakthrough 而不再上调。

解读视频

链接