Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-03
arXiv: 2604.03016

收录解读

多模态模型越来越被包装成“agentic”，但现有评测往往要么只看 final answer，要么把 visual tools 和 web search 分开测，导致我们很难知道模型到底有没有正确调用工具、是否真的完成了多步过程，还是只是靠答案投机过关。

Agentic-MME 的核心贡献是 process-verified benchmark。它覆盖 418 个真实任务、6 个领域和 3 个难度层级，不仅提供统一的 tool/sandbox 评估框架，还引入 2000 多个 stepwise checkpoints 以及相对人类轨迹的 overthinking metric，用过程而不是结果单点来审 multimodal agentic capability。

它值得正式收录，因为这是仓库非常看重的 durable evaluation interface：把 multimodal intelligence 和 agentic tool use 真正接到一起，并且把“有没有走对过程”明确纳入度量。对于 multimodal agents、web-grounded systems 和工具调用评测，这种 benchmark 很有长期参考价值。

它暂时不升到更高一级，原因在于 benchmark 仍然需要时间证明自己的长期 adoption 和社区标准地位。它是很强的新评测接口，但是否会成为默认坐标系还需要后续使用情况来确认。

链接

论文链接