智能体与自主科学
突破级
暂无讲解视频
收录解读
SimuWoB 处理移动 GUI agent 评测中的可复现问题:真实 app 状态易变、账号和网络依赖复杂,导致 benchmark 难以稳定扩展。
论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境,使 agent 可以在统一状态空间中执行多步 UI 操作。
这种设计降低了 live-app benchmark 的维护成本,也使任务难度、状态和验证逻辑更适合训练和评测循环。
它值得正式收录,因为移动 GUI 是 computer-use agent 的关键场景,SimuWoB 提供了可扩展评测环境而不是孤立任务集合。