智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.29447

核心要点

问题/背景
这篇把 GUI agent 的问题从“能不能完成任务”推进到“犯错后能不能恢复”,这是实际部署中更关键的鲁棒性边界。
方法/机制
GUI-RobustEval 用 1,216 个可执行测试系统评估 error recovery;RoTS 用树式流程主动发现错误模式并合成恢复步骤,形成 800k 数据。
结果/证据
收录价值在于它同时给出评测接口和数据合成方法,能外溢到 computer-use agents、long-horizon recovery、agent training data generation。
收录价值
风险与限制:当前仍是 arXiv 初版,核心结论需要跨模型、跨环境和真实部署场景的进一步复现;因此分级为 breakthrough,而不是 disruptive/paradigm。
完整收录解读

这篇把 GUI agent 的问题从“能不能完成任务”推进到“犯错后能不能恢复”,这是实际部署中更关键的鲁棒性边界。

GUI-RobustEval 用 1,216 个可执行测试系统评估 error recovery;RoTS 用树式流程主动发现错误模式并合成恢复步骤,形成 800k 数据。

收录价值在于它同时给出评测接口和数据合成方法,能外溢到 computer-use agents、long-horizon recovery、agent training data generation。

风险与限制:当前仍是 arXiv 初版,核心结论需要跨模型、跨环境和真实部署场景的进一步复现;因此分级为 breakthrough,而不是 disruptive/paradigm。

论文摘要

本文介绍了一个可执行的基准测试——GUI-RobustEval,包含1,216个测试用例,用于衡量GUI代理从策略诱发的错误中恢复的能力,以及Robustness-driven Trajectory Synthesis(RoTS),这是一种基于树的合成流水线,生成80万条恢复轨迹。经过微调的RoTS模型可以提高错误恢复能力,并实现强大的OSWorld性能。

英文原文

The paper introduces GUI-RobustEval, an executable benchmark with 1,216 test cases for measuring GUI agents' ability to recover from policy-induced errors, and Robustness-driven Trajectory Synthesis, a tree-based synthesis pipeline that generates 800k recovery trajectories. Fine-tuned RoTS models improve error recovery and achieve strong OSWorld performance.

相关论文

链接