推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.05404

收录解读

这篇论文针对 tool-integrated reasoning 的一个实际部署盲点:只看正确率、token 数或 tool call 数,并不能解释真实延迟和成本。工具调用会打断 LLM 请求、导致 KV cache eviction 和 prefill 重算;工具返回的长文本还会持续膨胀上下文,使后续 decode 变慢。

作者提出 PTE(Prefill Token Equivalents),用一个硬件感知指标把内部推理 token、外部工具调用、不可复用 KV cache、长工具返回带来的额外 prefill/decode 成本统一到同一效率单位中。论文在高并发工业场景中验证 PTE 与 wall-clock latency 的相关性显著优于普通 token count,并在多个 TIR benchmark 上归纳出典型低效模式。

它值得收录,因为它把 agent/tool-use 评估从“模型是否会用工具”推进到“工具使用是否在硬件和服务系统中真的划算”。这一点对仓库的 agent evaluation、tool orchestration 和 inference-control 主线很重要:很多看似更强的长链工具推理,在服务端可能因为 cache eviction 和长返回而变成低吞吐路径。

它不是更高一级,因为 PTE 仍是度量与诊断框架,不直接给出新的 agent 学习算法;不同 serving stack、KV cache 策略、工具响应格式和并发调度策略下的参数化成本模型还需要更多系统级复验。

链接