智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.29534

核心要点

问题/背景
UI-KOBE 针对 mobile GUI agent 的部署矛盾:强系统依赖大 VLM 做截图理解和长程规划,但 on-device agent 更需要低成本、隐私友好和可解释。
方法/机制
方法上,系统先自主探索应用,构建 app-specific knowledge graph:节点是 UI states,边是可执行 transitions;运行时轻量 agent 根据当前截图和用户任务定位图节点,再在自循环、邻接转移、完成或 fallback free actions 中选择。
结果/证据
这种设计把 GUI planning 的一部分从端到端视觉推理转移到可复用 app graph 上,降低小模型负担,并让 agent 行为更可解释、更适合端侧部署。
收录价值
收录价值在于它提供了 GUI agent 的外部结构记忆/地图化 primitive:先探索建图,再用图指导轻量执行,对 computer-use agents、mobile agents 和 privacy-conscious local agents 都有工程复用价值。

收录解读

UI-KOBE 针对 mobile GUI agent 的部署矛盾:强系统依赖大 VLM 做截图理解和长程规划,但 on-device agent 更需要低成本、隐私友好和可解释。

方法上,系统先自主探索应用,构建 app-specific knowledge graph:节点是 UI states,边是可执行 transitions;运行时轻量 agent 根据当前截图和用户任务定位图节点,再在自循环、邻接转移、完成或 fallback free actions 中选择。

这种设计把 GUI planning 的一部分从端到端视觉推理转移到可复用 app graph 上,降低小模型负担,并让 agent 行为更可解释、更适合端侧部署。

收录价值在于它提供了 GUI agent 的外部结构记忆/地图化 primitive:先探索建图,再用图指导轻量执行,对 computer-use agents、mobile agents 和 privacy-conscious local agents 都有工程复用价值。

论文摘要

UI-KOBE improves lightweight mobile GUI agents by autonomously exploring apps and constructing app-specific knowledge graphs, where UI states are nodes and executable transitions are edges. At runtime, a small GUI agent uses the graph as external guidance to localize the current state and select self-loop actions, neighboring transitions, completion, or fallback free actions.

相关论文

链接