收录解读
这篇论文处理的是 computer-use agents 一个长期被低估但越来越关键的问题:现有评测和训练环境覆盖的软件种类太少、任务链太短,而且大量环境仍停留在电商、系统设置或少数桌面操作 demo 上,离真正有经济价值的软件工作流很远。作者把瓶颈明确定位在 environment creation 本身太昂贵、太手工,因此 agent 研究无法稳定扩展到更复杂的软件世界。
Gym-Anything 的核心贡献不是再做一个 benchmark,而是提出把“把软件变成 agent environment”本身做成多 agent 流程。系统里 coding agent 负责写 setup 脚本、下载真实数据、配置软件并生成 setup evidence,独立 audit agent 再按 checklist 验证环境是否真的搭好。基于这套流程,作者构建出覆盖 200 个软件应用、超过 10K 长链任务的 CUA-World 和更难的 CUA-World-Long,把 environment generation、审计、训练/测试切分和长任务评测接成了同一个可扩展基础设施。
这篇应收进仓库,因为它改写的不是某个 agent policy,而是 computer-use 研究的环境供给方式。相比只在固定 GUI benchmark 上比较模型,Gym-Anything 把 environment generation、auditability 和 economic-task coverage 一起纳入方法设计,对 agent evaluation、computer-use training、long-horizon task construction 和未来真实软件自动化都有明显外溢。它更像一个 durable workflow primitive,而不是一次性基准集合。
这篇目前仍是 arXiv 预印本,任务分布和环境质量主要依赖作者自己的生成与审计流水线,外部团队是否会采用这一套环境构建方法还需要时间验证。它是很强的 benchmark/infrastructure paper,但还没有强到足以成为范式级改写,因此给 `breakthrough`。