软件工程与编程智能体
突破级
暂无讲解视频
收录解读
这篇工作的价值在于它抓住了一个真实但一直缺 benchmark 的问题:很多故障诊断不是纯 backend observability,也不是纯 browser automation,而是要把用户可见症状和后端信号拼起来做归因。CUJBench 正是在测这个 cross-modal diagnosis gap。
它值得收的原因不是任务设定新奇,而是 benchmark 设计非常实用:deterministic multi-modal snapshot、固定工具接口、87 个标注场景、五类故障族,而且显式比较 retrieval、browser-only、full-toolset 基线。结果里最有信息量的一点是 evidence access 更多并没有自动变强,反而暴露了 synthesis bottleneck。
这对 coding agents、AIOps、browser-to-backend diagnosis 都有直接外溢,因为它测的不是能不能调用工具,而是能不能把跨模态证据正确拼成 root cause。这样的 benchmark 比单纯 UI 或后端榜单更接近真实工程问题。
它没有更高,是因为当前规模仍不算大,主要覆盖两类开源应用环境;如果后续扩展到更多真实系统形态,它的地位会更稳。