智能体与自主科学 突破级 有讲解视频
发表时间
2026-05-19
arXiv
2605.19769

收录解读

OpenComputer 针对 computer-use agents 的核心评估难点:最终截图或 LLM-as-judge 往往看不见真实应用状态,也不能稳定给出部分信用。

框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness,覆盖 33 个桌面应用与 1000 个任务。

它值得正式收录,因为它把软件世界变成可验证环境,为 computer-use agents 提供比纯视觉评分更可靠的训练和评测基础。

它没有更高,是因为 verifier 的构建仍需要应用特定工程,覆盖更多应用和动态网页仍有成本。

解读视频

链接