智能体与自主科学
突破级
暂无讲解视频
收录解读
手机使用 agent 的瓶颈不是缺少单个 benchmark,而是缺少可规模化构造、可复现、可验证的 phone-use environments。
PhoneWorld 把真实 GUI trajectories 和 screenshots 转换为可控环境、可执行任务和自动 verifier,目标是让 phone-use agent 的训练和评测可以持续扩展。
这类环境生成管线比单一任务集更重要,因为 computer-use / mobile-use agent 需要不断产生新的可验证任务。
它值得收录,因为它提供了面向移动 GUI agent 的环境生产基础设施,符合本库对 agent harness 和 verifiable training environments 的关注。