Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-11
arXiv: 2605.10832

收录解读

这篇论文抓住 multimodal deep search agent 的两个核心问题：工具返回的图像通常只是一次性观察，不能作为后续工具调用的可寻址工作状态；训练数据也常由固定配方生成，不能跟随目标 policy 的能力边界演化。

方法上，论文提出 visual-native agent harness，把搜索、浏览、图像处理和计算工具产生的中间图像登记为 image bank reference，使其能在后续步骤中被重新裁剪、检索和推理；再用 On-Policy Data Evolution 根据当前 policy rollouts、trace analysis 和 rubric feedback 迭代更新数据生成配置。

它值得正式收录，因为它把 multimodal agent 训练从静态数据合成推进到 workspace + on-policy data evolution 的闭环。论文显示 ODE 让 Qwen3-VL-8B 平均分从 24.9% 到 39.0%，30B 从 30.6% 到 41.5%，并且验证了 reusable visual state 的独立贡献。

它没有更高，是因为当前证据仍集中在 multimodal deep search benchmark 和特定 Qwen3-VL backbones；真实网页、噪声环境、工具失败和长期任务中的鲁棒性还需要进一步验证。

链接

论文链接项目代码代码