智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-09
arXiv
2604.08545

收录解读

这篇论文抓住了 agentic multimodal models 中一个越来越实际的问题:模型会盲目调用裁剪、搜索、代码或图像工具,即使问题可以直接从视觉上下文解决。工具滥用不仅增加延迟和成本,还会把无关噪声引入推理链;但简单给 tool penalty 又容易压制必要工具调用。

作者提出 HDPO,把正确性和工具节制从一个 scalarized reward 拆成两个正交优化通道:accuracy channel 先最大化任务正确性,efficiency channel 只在 accurate trajectories 内做 conditional advantage estimation。这样工具效率不再和准确率直接争夺同一 reward 标量,而是在做对的前提下学习何时不用工具。

它值得收录,因为它把 tool-use learning 的目标从“会调用工具”推进到“知道何时不调用工具”,这是 agent 系统走向低延迟、低噪声、可部署时必须解决的元认知能力。论文中的 Metis 在多模态工具任务上把工具调用率从接近默认调用降到极低,同时保持或提升准确率,对 multimodal agent RL 和工具治理都有复用价值。

它不是更高一级,因为当前主要验证仍围绕特定多模态工具集合和 benchmark;HDPO 的稳定性、工具种类扩展、真实环境副作用和长期任务中的 abstention 风险还需要更多验证。

链接