LongHorizonUI: A Unified Framework for Robust long-horizon Task Automation of GUI Agent

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-06

收录解读

GUI agent 这条线已经证明了短程 computer use 可以做得越来越像样，但一旦任务跨到十几步以上，视觉状态漂移、界面元素误识别、执行偏差累计和回退失败就会迅速让系统失稳。LongHorizonUI 处理的正是这类长程 GUI 自动化里最实际的鲁棒性问题。

论文从三个层面给出方案。第一，提出 LongGUIBench，把需要超过 15 步的复杂游戏与通用应用任务系统化成专门的长程 benchmark。第二，设计 Multimodal Enhanced Perceiver，把元素检测与文字识别结合起来并给界面元素分配唯一索引，加强状态表示。第三，加入 Deep Reflection Decider 和 Compensatory Action Executor，通过多级反馈验证、退化补偿和基于执行进度的 rollback 机制提升长程执行稳定性。

对这个仓库来说，这篇工作的价值在于它把 GUI agent 的研究重心从短流程成功率推进到长程任务中的 state tracking、self-correction 和 execution recovery。它不仅是一个 benchmark 条目，也提供了一套更接近真实 computer-use agent 的系统架构模式，因此值得正式收录。

它没有再往上升一级，原因是当前可直接获取的主来源是 ICLR 官方 poster 页 HTML 摘要，OpenReview 正文在当前网络下不可直接稳定抓取；同时现阶段证据仍主要集中在 benchmark 和系统设计层，还需要更开放环境和更长周期任务的进一步验证。

链接

论文链接项目