STaR-KV: Spatio-Temporal Adaptive Re-weighting for KV Cache Compression in GUI Vision-Language Models

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2606.01790

核心要点

问题/背景: GUI VLM agents 的多步交互会让截图序列 KV cache 线性增长，部署时很快触及显存上限。
方法/机制: STaR-KV 指出视觉 token 重要性具有空间和时间差异，提出 spatio-temporal adaptive re-weighting 来压缩 GUI 视觉语言模型的缓存。
结果/证据: 它值得收录，因为 GUI agent 是高价值执行场景，KV cache 压缩直接影响长程交互可部署性。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

GUI VLM agents 的多步交互会让截图序列 KV cache 线性增长，部署时很快触及显存上限。

STaR-KV 指出视觉 token 重要性具有空间和时间差异，提出 spatio-temporal adaptive re-weighting 来压缩 GUI 视觉语言模型的缓存。

它值得收录，因为 GUI agent 是高价值执行场景，KV cache 压缩直接影响长程交互可部署性。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

STaR-KV 通过使用空间-时间自适应加权，而不是共享的显著图和固定的 Top-B 分割点，来压缩不断增长的 KV 缓存，应用于 GUI VLM 代理。

英文原文

STaR-KV compresses growing KV caches in GUI VLM agents using spatio-temporal adaptive re-weighting instead of shared saliency maps and fixed top-B cutoffs.

链接

论文链接论文链接

核心要点

论文摘要

相关论文

链接