SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

智能体与自主科学突破级暂无讲解视频

收录解读

SimuWoB 处理移动 GUI agent 评测中的可复现问题：真实 app 状态易变、账号和网络依赖复杂，导致 benchmark 难以稳定扩展。

论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境，使 agent 可以在统一状态空间中执行多步 UI 操作。

这种设计降低了 live-app benchmark 的维护成本，也使任务难度、状态和验证逻辑更适合训练和评测循环。

它值得正式收录，因为移动 GUI 是 computer-use agent 的关键场景，SimuWoB 提供了可扩展评测环境而不是孤立任务集合。