智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文的强点在于,它抓住了 GUI-agent benchmark 里一个长期被低估的断层:现实职业工作流往往不是一个应用里点几步,而是多应用、多子目标、带条件判断的过程。
WindowsWorld 围绕 16 类职业角色生成任务,强调 process-centric cross-application workflows,而不是继续堆单应用导航题。实验结果也很有信息量:一旦任务跨多个应用,当前 agents 的成功率明显塌陷。
它值得正式收录,因为这是 computer-use evaluation 的一个更真实、更耐用的 benchmark slice。对 GUI agents、office workflow agents、cross-app orchestrators 都有直接复用价值。
它没有更高,是因为当前贡献仍在评测界面与任务分布建模层,还不是更完整的 agent-training stack。