The Art of Building Verifiers for Computer Use Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-05
arXiv: 2604.06240

收录解读

computer-use agents 近来的一个根本问题是：如果 verifier 不可靠，那 benchmark 分数和训练信号都会一起变脏。很多现有 web-task verifier 的 false positive 很高，导致“agent 成功了没有”这件事本身就不再可信。

这篇工作的重点不在于提出一个抽象评分器，而是把 verifier design 总结成四条可落地原则：rubrics 必须非重叠、process reward 和 outcome reward 必须分离、controllable 和 uncontrollable failures 必须区分、长轨迹要用 divide-and-conquer context management 才能稳。作者据此构建 Universal Verifier 和 CUAVerifierBench，把 false positive 压到接近零。

它值得正式收录，因为对 computer-use agents 来说，verifier 不是附属件，而是 evaluation 和 RL data generation 的基础设施。这篇工作把 verifier 从隐形工程细节提升成第一类研究对象，外溢到 benchmark design、agent training 和 web-task auditing。

它暂时不升到更高一级，原因在于目前结论仍强依赖 web-task / screenshot trajectory 这类 setting，离更通用的 agent verifier theory 还有距离。

链接

论文链接