Gym-Anything: Turn any Software into an Agent Environment

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-07
arXiv: 2604.06126

收录解读

这篇论文处理的是 computer-use agents 一个长期被低估但越来越关键的问题：现有评测和训练环境覆盖的软件种类太少、任务链太短，而且大量环境仍停留在电商、系统设置或少数桌面操作 demo 上，离真正有经济价值的软件工作流很远。作者把瓶颈明确定位在 environment creation 本身太昂贵、太手工，因此 agent 研究无法稳定扩展到更复杂的软件世界。

Gym-Anything 的核心贡献不是再做一个 benchmark，而是提出把“把软件变成 agent environment”本身做成多 agent 流程。系统里 coding agent 负责写 setup 脚本、下载真实数据、配置软件并生成 setup evidence，独立 audit agent 再按 checklist 验证环境是否真的搭好。基于这套流程，作者构建出覆盖 200 个软件应用、超过 10K 长链任务的 CUA-World 和更难的 CUA-World-Long，把 environment generation、审计、训练/测试切分和长任务评测接成了同一个可扩展基础设施。

这篇应收进仓库，因为它改写的不是某个 agent policy，而是 computer-use 研究的环境供给方式。相比只在固定 GUI benchmark 上比较模型，Gym-Anything 把 environment generation、auditability 和 economic-task coverage 一起纳入方法设计，对 agent evaluation、computer-use training、long-horizon task construction 和未来真实软件自动化都有明显外溢。它更像一个 durable workflow primitive，而不是一次性基准集合。

这篇目前仍是 arXiv 预印本，任务分布和环境质量主要依赖作者自己的生成与审计流水线，外部团队是否会采用这一套环境构建方法还需要时间验证。它是很强的 benchmark/infrastructure paper，但还没有强到足以成为范式级改写，因此给 `breakthrough`。

链接

论文链接