UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.24533

收录解读

mobile GUI agent 的关键难题不是单步 grounding，而是长程任务里的失败经验怎么转化成可持续的训练信号。现有方法常见两个问题：要么只是离线堆 demonstration，无法形成持续演化闭环；要么只看最终 sparse reward，导致 credit assignment 太弱，学不到中间关键分叉点。UI-Voyager 处理的正是这个自进化学习问题。

论文提出两阶段 self-evolving 方案。第一阶段用 Rejection Fine-Tuning 在全自动循环里让数据和模型共同进化，不断积累失败与成功轨迹；第二阶段用 Group Relative Self-Distillation 从一组 rollout 中识别关键 fork points，并把成功轨迹转成更密集的 step-level 监督去纠正失败轨迹。这个设计的重点不是单纯提安卓任务分数，而是把 failed experience 变成可持续利用的学习资产。

它值得正式收录，因为它给 mobile GUI agent 一条相对清晰的持续改进路径：不是只靠更多人类 demonstration，也不是只靠末端奖励，而是围绕失败轨迹构造自进化训练循环。对 computer-use / GUI agent / deployment-time improvement 三条主线都有直接方法外溢。

它目前仍是 breakthrough，而不是更高一级，因为证据主要集中在 AndroidWorld 和一类移动 GUI 任务，尚未证明这一套 self-evolving 机制能稳定迁移到更广桌面、浏览器和跨应用 agent setting。它很强，但还不是整个 GUI agent 训练范式的终局。

链接

论文链接