PhoneWorld: Scaling Phone-Use Agent Environments

智能体与自主科学突破级暂无讲解视频

收录解读

手机使用 agent 的瓶颈不是缺少单个 benchmark，而是缺少可规模化构造、可复现、可验证的 phone-use environments。

PhoneWorld 把真实 GUI trajectories 和 screenshots 转换为可控环境、可执行任务和自动 verifier，目标是让 phone-use agent 的训练和评测可以持续扩展。

这类环境生成管线比单一任务集更重要，因为 computer-use / mobile-use agent 需要不断产生新的可验证任务。

它值得收录，因为它提供了面向移动 GUI agent 的环境生产基础设施，符合本库对 agent harness 和 verifiable training environments 的关注。