Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.29447

核心要点

问题/背景: 这篇把 GUI agent 的问题从“能不能完成任务”推进到“犯错后能不能恢复”，这是实际部署中更关键的鲁棒性边界。
方法/机制: GUI-RobustEval 用 1,216 个可执行测试系统评估 error recovery；RoTS 用树式流程主动发现错误模式并合成恢复步骤，形成 800k 数据。
结果/证据: 收录价值在于它同时给出评测接口和数据合成方法，能外溢到 computer-use agents、long-horizon recovery、agent training data generation。
收录价值: 风险与限制：当前仍是 arXiv 初版，核心结论需要跨模型、跨环境和真实部署场景的进一步复现；因此分级为 breakthrough，而不是 disruptive/paradigm。

完整收录解读

这篇把 GUI agent 的问题从“能不能完成任务”推进到“犯错后能不能恢复”，这是实际部署中更关键的鲁棒性边界。

GUI-RobustEval 用 1,216 个可执行测试系统评估 error recovery；RoTS 用树式流程主动发现错误模式并合成恢复步骤，形成 800k 数据。

收录价值在于它同时给出评测接口和数据合成方法，能外溢到 computer-use agents、long-horizon recovery、agent training data generation。

风险与限制：当前仍是 arXiv 初版，核心结论需要跨模型、跨环境和真实部署场景的进一步复现；因此分级为 breakthrough，而不是 disruptive/paradigm。

论文摘要

本文介绍了一个可执行的基准测试——GUI-RobustEval，包含1,216个测试用例，用于衡量GUI代理从策略诱发的错误中恢复的能力，以及Robustness-driven Trajectory Synthesis（RoTS），这是一种基于树的合成流水线，生成80万条恢复轨迹。经过微调的RoTS模型可以提高错误恢复能力，并实现强大的OSWorld性能。

英文原文

The paper introduces GUI-RobustEval, an executable benchmark with 1,216 test cases for measuring GUI agents' ability to recover from policy-induced errors, and Robustness-driven Trajectory Synthesis, a tree-based synthesis pipeline that generates 800k recovery trajectories. Fine-tuned RoTS models improve error recovery and achieve strong OSWorld performance.

链接

论文链接论文链接代码相关链接

核心要点

论文摘要

相关论文

链接