收录解读
mobile GUI agent 的关键难题不是单步 grounding,而是长程任务里的失败经验怎么转化成可持续的训练信号。现有方法常见两个问题:要么只是离线堆 demonstration,无法形成持续演化闭环;要么只看最终 sparse reward,导致 credit assignment 太弱,学不到中间关键分叉点。UI-Voyager 处理的正是这个自进化学习问题。
论文提出两阶段 self-evolving 方案。第一阶段用 Rejection Fine-Tuning 在全自动循环里让数据和模型共同进化,不断积累失败与成功轨迹;第二阶段用 Group Relative Self-Distillation 从一组 rollout 中识别关键 fork points,并把成功轨迹转成更密集的 step-level 监督去纠正失败轨迹。这个设计的重点不是单纯提安卓任务分数,而是把 failed experience 变成可持续利用的学习资产。
它值得正式收录,因为它给 mobile GUI agent 一条相对清晰的持续改进路径:不是只靠更多人类 demonstration,也不是只靠末端奖励,而是围绕失败轨迹构造自进化训练循环。对 computer-use / GUI agent / deployment-time improvement 三条主线都有直接方法外溢。
它目前仍是 breakthrough,而不是更高一级,因为证据主要集中在 AndroidWorld 和一类移动 GUI 任务,尚未证明这一套 self-evolving 机制能稳定迁移到更广桌面、浏览器和跨应用 agent setting。它很强,但还不是整个 GUI agent 训练范式的终局。