多模态基础模型
突破级
暂无讲解视频
收录解读
多模态模型越来越被包装成“agentic”,但现有评测往往要么只看 final answer,要么把 visual tools 和 web search 分开测,导致我们很难知道模型到底有没有正确调用工具、是否真的完成了多步过程,还是只是靠答案投机过关。
Agentic-MME 的核心贡献是 process-verified benchmark。它覆盖 418 个真实任务、6 个领域和 3 个难度层级,不仅提供统一的 tool/sandbox 评估框架,还引入 2000 多个 stepwise checkpoints 以及相对人类轨迹的 overthinking metric,用过程而不是结果单点来审 multimodal agentic capability。
它值得正式收录,因为这是仓库非常看重的 durable evaluation interface:把 multimodal intelligence 和 agentic tool use 真正接到一起,并且把“有没有走对过程”明确纳入度量。对于 multimodal agents、web-grounded systems 和工具调用评测,这种 benchmark 很有长期参考价值。
它暂时不升到更高一级,原因在于 benchmark 仍然需要时间证明自己的长期 adoption 和社区标准地位。它是很强的新评测接口,但是否会成为默认坐标系还需要后续使用情况来确认。