Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

多模态基础模型突破级有讲解视频

发表时间: 2026-03-30
arXiv: 2603.28554

收录解读

文档理解系统通常把检索和生成拆成两套模型来做，这会同时增加显存占用、服务复杂度和系统维护成本。Hydra 针对这一长期存在的双模型结构问题，尝试把视觉文档检索与文档问答生成统一到同一个视觉语言模型中，让同一底座同时承担文档表示和回答生成两种职责。

这篇工作的核心做法是给基座 VLM 增加一个可切换的 retrieval LoRA：开启时输出适合 late-interaction 检索的多向量表示，关闭时恢复生成路径。作者特别强调了三个维持生成质量所必须满足的工程条件，包括 attention mode 恢复、lm_head 保留和 KV-cache 兼容解码，并用大规模样本比较表明切换后生成结果几乎与独立基座保持一致。

它的价值不只在文档任务分数，而在于提出了一种更耐久的多模态系统接口：检索与生成不必天然对应两套模型。对仓库关注的多模态基础模型、统一接口和部署工作流而言，这是一种有可复用性的系统模式；同时 41% 的峰值显存下降也使它具备明确的工程现实意义。

目前证据仍主要来自 arXiv 阶段和单次训练结果，部分提升集中在少数 benchmark 子集，作者自己也承认需要多种子实验进一步确认趋势。它已经足够作为强方法收录，但还没到重写该方向默认架构的程度，因此维持在 breakthrough 而不再上调。

解读视频

B 站 YouTube

链接

论文链接