收录解读
agentic multimodal LLM 的核心瓶颈不是单轮模型前向,而是 perception、reasoning、tool-calling 反复串行导致的 agentic depth。只要还依赖昂贵视觉工具链逐步展开,多模态 agent 的延迟和并发吞吐都会被顺序依赖拖死。SpecEyes 针对的是这个系统级瓶颈。
它提出一种 speculative acceleration 框架:用轻量、tool-free MLLM 作为 speculative planner 预测执行轨迹,提前判断哪些昂贵视觉工具链可以被终止;同时用 answer separability 做 cognitive gating,在没有 oracle label 的情况下调节 speculative planning;再通过 heterogeneous parallel funnel 用小模型的无状态并发去掩蔽大模型的串行执行。
这篇工作的价值在于它把 speculative execution 从 token-level decoding 推进到了 agentic multimodal workflow 级别。对于 computer-use、视觉问答代理、以及多模态 tool-using systems,它提供的是一条可复用的系统优化接口,而不只是某个 benchmark 上的特化 trick。
它目前仍是 breakthrough,因为验证主要集中在 V* Bench、HR-Bench 和 POPE 一类评测,离更复杂真实 GUI / robotics / embodied tool-use 环境还有距离。它能否成为通用 agentic MLLM serving blueprint,还要看更广部署验证。