智能体与自主科学
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇把 GUI agent 的问题从“能不能完成任务”推进到“犯错后能不能恢复”,这是实际部署中更关键的鲁棒性边界。
- 方法/机制
- GUI-RobustEval 用 1,216 个可执行测试系统评估 error recovery;RoTS 用树式流程主动发现错误模式并合成恢复步骤,形成 800k 数据。
- 结果/证据
- 收录价值在于它同时给出评测接口和数据合成方法,能外溢到 computer-use agents、long-horizon recovery、agent training data generation。
- 收录价值
- 风险与限制:当前仍是 arXiv 初版,核心结论需要跨模型、跨环境和真实部署场景的进一步复现;因此分级为 breakthrough,而不是 disruptive/paradigm。
论文摘要
本文介绍了一个可执行的基准测试——GUI-RobustEval,包含1,216个测试用例,用于衡量GUI代理从策略诱发的错误中恢复的能力,以及Robustness-driven Trajectory Synthesis(RoTS),这是一种基于树的合成流水线,生成80万条恢复轨迹。经过微调的RoTS模型可以提高错误恢复能力,并实现强大的OSWorld性能。
英文原文
The paper introduces GUI-RobustEval, an executable benchmark with 1,216 test cases for measuring GUI agents' ability to recover from policy-induced errors, and Robustness-driven Trajectory Synthesis, a tree-based synthesis pipeline that generates 800k recovery trajectories. Fine-tuned RoTS models improve error recovery and achieve strong OSWorld performance.