UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

多模态基础模型突破级暂无讲解视频

收录解读

问题与背景：visual RAG 往往依赖粗糙检索信号，不能在复杂文档推理中逐步缩小到信息密集区域。

方法与新意：UniDoc-RL 将视觉信息获取建模为层级动作序列，从文档检索到图像选择再到区域裁剪，并用 dense multi-reward 和 GRPO 训练 agent 同时优化 retrieval、reranking、active perception 和 reasoning。

收录意义：这篇对 multimodal RAG/agent 很有复用价值，因为它把“看哪里、取哪页、裁哪里、如何推理”统一成可训练决策流程，而不是独立模块拼接。

局限：数据集和 reward 设计可能影响泛化；真实企业文档、低质量扫描和跨格式文档上的鲁棒性仍需验证。