WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文的强点在于，它抓住了 GUI-agent benchmark 里一个长期被低估的断层：现实职业工作流往往不是一个应用里点几步，而是多应用、多子目标、带条件判断的过程。

WindowsWorld 围绕 16 类职业角色生成任务，强调 process-centric cross-application workflows，而不是继续堆单应用导航题。实验结果也很有信息量：一旦任务跨多个应用，当前 agents 的成功率明显塌陷。

它值得正式收录，因为这是 computer-use evaluation 的一个更真实、更耐用的 benchmark slice。对 GUI agents、office workflow agents、cross-app orchestrators 都有直接复用价值。

它没有更高，是因为当前贡献仍在评测界面与任务分布建模层，还不是更完整的 agent-training stack。