推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-06-01
arXiv
2606.01790

核心要点

问题/背景
GUI VLM agents 的多步交互会让截图序列 KV cache 线性增长,部署时很快触及显存上限。
方法/机制
STaR-KV 指出视觉 token 重要性具有空间和时间差异,提出 spatio-temporal adaptive re-weighting 来压缩 GUI 视觉语言模型的缓存。
结果/证据
它值得收录,因为 GUI agent 是高价值执行场景,KV cache 压缩直接影响长程交互可部署性。
收录价值
按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
完整收录解读

GUI VLM agents 的多步交互会让截图序列 KV cache 线性增长,部署时很快触及显存上限。

STaR-KV 指出视觉 token 重要性具有空间和时间差异,提出 spatio-temporal adaptive re-weighting 来压缩 GUI 视觉语言模型的缓存。

它值得收录,因为 GUI agent 是高价值执行场景,KV cache 压缩直接影响长程交互可部署性。

按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

STaR-KV 通过使用空间-时间自适应加权,而不是共享的显著图和固定的 Top-B 分割点,来压缩不断增长的 KV 缓存,应用于 GUI VLM 代理。

英文原文

STaR-KV compresses growing KV caches in GUI VLM agents using spatio-temporal adaptive re-weighting instead of shared saliency maps and fixed top-B cutoffs.

相关论文

链接