OpenComputer: Verifiable Software Worlds for Computer-Use Agents

智能体与自主科学突破级有讲解视频

收录解读

OpenComputer 针对 computer-use agents 的核心评估难点：最终截图或 LLM-as-judge 往往看不见真实应用状态，也不能稳定给出部分信用。

框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness，覆盖 33 个桌面应用与 1000 个任务。

它值得正式收录，因为它把软件世界变成可验证环境，为 computer-use agents 提供比纯视觉评分更可靠的训练和评测基础。

它没有更高，是因为 verifier 的构建仍需要应用特定工程，覆盖更多应用和动态网页仍有成本。