多模态基础模型 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.14967

收录解读

问题与背景:visual RAG 往往依赖粗糙检索信号,不能在复杂文档推理中逐步缩小到信息密集区域。

方法与新意:UniDoc-RL 将视觉信息获取建模为层级动作序列,从文档检索到图像选择再到区域裁剪,并用 dense multi-reward 和 GRPO 训练 agent 同时优化 retrieval、reranking、active perception 和 reasoning。

收录意义:这篇对 multimodal RAG/agent 很有复用价值,因为它把“看哪里、取哪页、裁哪里、如何推理”统一成可训练决策流程,而不是独立模块拼接。

局限:数据集和 reward 设计可能影响泛化;真实企业文档、低质量扫描和跨格式文档上的鲁棒性仍需验证。

链接