智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-30

收录解读

这篇论文的强点在于,它抓住了 GUI-agent benchmark 里一个长期被低估的断层:现实职业工作流往往不是一个应用里点几步,而是多应用、多子目标、带条件判断的过程。

WindowsWorld 围绕 16 类职业角色生成任务,强调 process-centric cross-application workflows,而不是继续堆单应用导航题。实验结果也很有信息量:一旦任务跨多个应用,当前 agents 的成功率明显塌陷。

它值得正式收录,因为这是 computer-use evaluation 的一个更真实、更耐用的 benchmark slice。对 GUI agents、office workflow agents、cross-app orchestrators 都有直接复用价值。

它没有更高,是因为当前贡献仍在评测界面与任务分布建模层,还不是更完整的 agent-training stack。

链接