Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

软件工程与编程智能体突破级暂无讲解视频

收录解读

很多 desktop 或 coding agent benchmark 的问题是文件世界太干净、依赖关系太薄。Workspace-Bench 把评测对象换成了更接近真实工作空间的 file graph environment，而不是几份预摆好的小文件。

它的耐用点在于规模和结构同时成立：5 个 worker profile、74 种文件类型、20,476 个文件、388 个任务、7,399 条 rubric。这让 agent 不只是做检索，而是在大依赖图里做跨文件推理和决策。

它值得正式收录，因为未来 coworker agent 的核心难题之一就是 workspace dependency reasoning，这篇 benchmark 明确补到了这一层。

它没有更高，是因为虽然 benchmark 设计非常对路，但目前仍主要聚焦 workspace/task 评测接口，而非更广跨系统办公执行闭环。