智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-05
arXiv
2604.06240

收录解读

computer-use agents 近来的一个根本问题是:如果 verifier 不可靠,那 benchmark 分数和训练信号都会一起变脏。很多现有 web-task verifier 的 false positive 很高,导致“agent 成功了没有”这件事本身就不再可信。

这篇工作的重点不在于提出一个抽象评分器,而是把 verifier design 总结成四条可落地原则:rubrics 必须非重叠、process reward 和 outcome reward 必须分离、controllable 和 uncontrollable failures 必须区分、长轨迹要用 divide-and-conquer context management 才能稳。作者据此构建 Universal Verifier 和 CUAVerifierBench,把 false positive 压到接近零。

它值得正式收录,因为对 computer-use agents 来说,verifier 不是附属件,而是 evaluation 和 RL data generation 的基础设施。这篇工作把 verifier 从隐形工程细节提升成第一类研究对象,外溢到 benchmark design、agent training 和 web-task auditing。

它暂时不升到更高一级,原因在于目前结论仍强依赖 web-task / screenshot trajectory 这类 setting,离更通用的 agent verifier theory 还有距离。

链接