Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08545

收录解读

这篇论文抓住了 agentic multimodal models 中一个越来越实际的问题：模型会盲目调用裁剪、搜索、代码或图像工具，即使问题可以直接从视觉上下文解决。工具滥用不仅增加延迟和成本，还会把无关噪声引入推理链；但简单给 tool penalty 又容易压制必要工具调用。

作者提出 HDPO，把正确性和工具节制从一个 scalarized reward 拆成两个正交优化通道：accuracy channel 先最大化任务正确性，efficiency channel 只在 accurate trajectories 内做 conditional advantage estimation。这样工具效率不再和准确率直接争夺同一 reward 标量，而是在做对的前提下学习何时不用工具。

它值得收录，因为它把 tool-use learning 的目标从“会调用工具”推进到“知道何时不调用工具”，这是 agent 系统走向低延迟、低噪声、可部署时必须解决的元认知能力。论文中的 Metis 在多模态工具任务上把工具调用率从接近默认调用降到极低，同时保持或提升准确率，对 multimodal agent RL 和工具治理都有复用价值。

它不是更高一级，因为当前主要验证仍围绕特定多模态工具集合和 benchmark；HDPO 的稳定性、工具种类扩展、真实环境副作用和长期任务中的 abstention 风险还需要更多验证。

链接

论文链接