智能体与自主科学
突破级
暂无讲解视频
收录解读
GUI agent 这条线已经证明了短程 computer use 可以做得越来越像样,但一旦任务跨到十几步以上,视觉状态漂移、界面元素误识别、执行偏差累计和回退失败就会迅速让系统失稳。LongHorizonUI 处理的正是这类长程 GUI 自动化里最实际的鲁棒性问题。
论文从三个层面给出方案。第一,提出 LongGUIBench,把需要超过 15 步的复杂游戏与通用应用任务系统化成专门的长程 benchmark。第二,设计 Multimodal Enhanced Perceiver,把元素检测与文字识别结合起来并给界面元素分配唯一索引,加强状态表示。第三,加入 Deep Reflection Decider 和 Compensatory Action Executor,通过多级反馈验证、退化补偿和基于执行进度的 rollback 机制提升长程执行稳定性。
对这个仓库来说,这篇工作的价值在于它把 GUI agent 的研究重心从短流程成功率推进到长程任务中的 state tracking、self-correction 和 execution recovery。它不仅是一个 benchmark 条目,也提供了一套更接近真实 computer-use agent 的系统架构模式,因此值得正式收录。
它没有再往上升一级,原因是当前可直接获取的主来源是 ICLR 官方 poster 页 HTML 摘要,OpenReview 正文在当前网络下不可直接稳定抓取;同时现阶段证据仍主要集中在 benchmark 和系统设计层,还需要更开放环境和更长周期任务的进一步验证。