SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-24
arXiv: 2603.23483

收录解读

agentic multimodal LLM 的核心瓶颈不是单轮模型前向，而是 perception、reasoning、tool-calling 反复串行导致的 agentic depth。只要还依赖昂贵视觉工具链逐步展开，多模态 agent 的延迟和并发吞吐都会被顺序依赖拖死。SpecEyes 针对的是这个系统级瓶颈。

它提出一种 speculative acceleration 框架：用轻量、tool-free MLLM 作为 speculative planner 预测执行轨迹，提前判断哪些昂贵视觉工具链可以被终止；同时用 answer separability 做 cognitive gating，在没有 oracle label 的情况下调节 speculative planning；再通过 heterogeneous parallel funnel 用小模型的无状态并发去掩蔽大模型的串行执行。

这篇工作的价值在于它把 speculative execution 从 token-level decoding 推进到了 agentic multimodal workflow 级别。对于 computer-use、视觉问答代理、以及多模态 tool-using systems，它提供的是一条可复用的系统优化接口，而不只是某个 benchmark 上的特化 trick。

它目前仍是 breakthrough，因为验证主要集中在 V* Bench、HR-Bench 和 POPE 一类评测，离更复杂真实 GUI / robotics / embodied tool-use 环境还有距离。它能否成为通用 agentic MLLM serving blueprint，还要看更广部署验证。

链接

论文链接