智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文抓住 multimodal deep search agent 的两个核心问题:工具返回的图像通常只是一次性观察,不能作为后续工具调用的可寻址工作状态;训练数据也常由固定配方生成,不能跟随目标 policy 的能力边界演化。
方法上,论文提出 visual-native agent harness,把搜索、浏览、图像处理和计算工具产生的中间图像登记为 image bank reference,使其能在后续步骤中被重新裁剪、检索和推理;再用 On-Policy Data Evolution 根据当前 policy rollouts、trace analysis 和 rubric feedback 迭代更新数据生成配置。
它值得正式收录,因为它把 multimodal agent 训练从静态数据合成推进到 workspace + on-policy data evolution 的闭环。论文显示 ODE 让 Qwen3-VL-8B 平均分从 24.9% 到 39.0%,30B 从 30.6% 到 41.5%,并且验证了 reusable visual state 的独立贡献。
它没有更高,是因为当前证据仍集中在 multimodal deep search benchmark 和特定 Qwen3-VL backbones;真实网页、噪声环境、工具失败和长期任务中的鲁棒性还需要进一步验证。