智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-24
arXiv
2605.25160

收录解读

SimuWoB 处理移动 GUI agent 评测中的可复现问题:真实 app 状态易变、账号和网络依赖复杂,导致 benchmark 难以稳定扩展。

论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境,使 agent 可以在统一状态空间中执行多步 UI 操作。

这种设计降低了 live-app benchmark 的维护成本,也使任务难度、状态和验证逻辑更适合训练和评测循环。

它值得正式收录,因为移动 GUI 是 computer-use agent 的关键场景,SimuWoB 提供了可扩展评测环境而不是孤立任务集合。

链接