智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-29
arXiv
2605.29486

收录解读

手机使用 agent 的瓶颈不是缺少单个 benchmark,而是缺少可规模化构造、可复现、可验证的 phone-use environments。

PhoneWorld 把真实 GUI trajectories 和 screenshots 转换为可控环境、可执行任务和自动 verifier,目标是让 phone-use agent 的训练和评测可以持续扩展。

这类环境生成管线比单一任务集更重要,因为 computer-use / mobile-use agent 需要不断产生新的可验证任务。

它值得收录,因为它提供了面向移动 GUI agent 的环境生产基础设施,符合本库对 agent harness 和 verifiable training environments 的关注。

链接