软件工程与编程智能体 突破级 暂无讲解视频
发表时间
2026-05-05
arXiv
2605.03596

收录解读

很多 desktop 或 coding agent benchmark 的问题是文件世界太干净、依赖关系太薄。Workspace-Bench 把评测对象换成了更接近真实工作空间的 file graph environment,而不是几份预摆好的小文件。

它的耐用点在于规模和结构同时成立:5 个 worker profile、74 种文件类型、20,476 个文件、388 个任务、7,399 条 rubric。这让 agent 不只是做检索,而是在大依赖图里做跨文件推理和决策。

它值得正式收录,因为未来 coworker agent 的核心难题之一就是 workspace dependency reasoning,这篇 benchmark 明确补到了这一层。

它没有更高,是因为虽然 benchmark 设计非常对路,但目前仍主要聚焦 workspace/task 评测接口,而非更广跨系统办公执行闭环。

链接