智能体与自主科学
突破级
有讲解视频
收录解读
OpenComputer 针对 computer-use agents 的核心评估难点:最终截图或 LLM-as-judge 往往看不见真实应用状态,也不能稳定给出部分信用。
框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness,覆盖 33 个桌面应用与 1000 个任务。
它值得正式收录,因为它把软件世界变成可验证环境,为 computer-use agents 提供比纯视觉评分更可靠的训练和评测基础。
它没有更高,是因为 verifier 的构建仍需要应用特定工程,覆盖更多应用和动态网页仍有成本。