推理、记忆与推理时控制
突破级
暂无讲解视频
核心要点
- 问题/背景
- GUI VLM agents 的多步交互会让截图序列 KV cache 线性增长,部署时很快触及显存上限。
- 方法/机制
- STaR-KV 指出视觉 token 重要性具有空间和时间差异,提出 spatio-temporal adaptive re-weighting 来压缩 GUI 视觉语言模型的缓存。
- 结果/证据
- 它值得收录,因为 GUI agent 是高价值执行场景,KV cache 压缩直接影响长程交互可部署性。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
STaR-KV 通过使用空间-时间自适应加权,而不是共享的显著图和固定的 Top-B 分割点,来压缩不断增长的 KV 缓存,应用于 GUI VLM 代理。
英文原文
STaR-KV compresses growing KV caches in GUI VLM agents using spatio-temporal adaptive re-weighting instead of shared saliency maps and fixed top-B cutoffs.