智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-25
arXiv
2605.26114

收录解读

GUI agent 研究的瓶颈之一是环境难并行、结果难验证、真实移动应用后端不可控,导致在线 RL 和可重复评测都很困难。

MobileGym 用 browser-hosted lightweight mobile environment 表达 everyday apps,通过结构化 JSON 状态支持配置、fork、比较和 deterministic judging,并把 verdict 和 dense reward 统一起来。

MobileGym-Bench 包含 28 个应用和 416 个参数化任务模板,支持低成本并行 rollouts;论文还报告 GRPO 训练在真实设备子集上保留大部分仿真增益。

它值得收录,因为它提供了 GUI/mobile computer-use agent 的可验证训练环境,把 agent evaluation、online RL 和 sim-to-real 放入同一个可复用平台。

链接