CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend

软件工程与编程智能体突破级暂无讲解视频

发表时间: 2026-04-25
arXiv: 2604.23455

收录解读

这篇工作的价值在于它抓住了一个真实但一直缺 benchmark 的问题：很多故障诊断不是纯 backend observability，也不是纯 browser automation，而是要把用户可见症状和后端信号拼起来做归因。CUJBench 正是在测这个 cross-modal diagnosis gap。

它值得收的原因不是任务设定新奇，而是 benchmark 设计非常实用：deterministic multi-modal snapshot、固定工具接口、87 个标注场景、五类故障族，而且显式比较 retrieval、browser-only、full-toolset 基线。结果里最有信息量的一点是 evidence access 更多并没有自动变强，反而暴露了 synthesis bottleneck。

这对 coding agents、AIOps、browser-to-backend diagnosis 都有直接外溢，因为它测的不是能不能调用工具，而是能不能把跨模态证据正确拼成 root cause。这样的 benchmark 比单纯 UI 或后端榜单更接近真实工程问题。

它没有更高，是因为当前规模仍不算大，主要覆盖两类开源应用环境；如果后续扩展到更多真实系统形态，它的地位会更稳。

链接

论文链接