智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-21
arXiv
2604.18224

收录解读

这篇论文针对当前 coding-agent 评测的一个明显盲点:现有 benchmark 多半只测文本条件下的代码生成和静态正确性,几乎不覆盖真实 web engineering 中的视觉保真、交互行为、编辑修复流程以及代码库级推理。WebCompass 的目标就是把这整条生命周期拉进统一评测。

数据设计上,WebCompass 横跨 text/image/video 三种输入模态,以及 generation/editing/repair 三类任务,形成七类 web engineering 场景;评测上,编辑和修复采用 checklist-guided LLM judge,生成部分则引入 agent-as-a-judge,让评测 agent 在真实浏览器里运行、探索交互并给出更接近实际体验的判断。

它值得正式收录,因为这是 coding-agent / computer-use 方向非常缺的 durable evaluation interface。它不只是多一套题,而是把 web coding 作为带视觉、交互和维护闭环的长期任务来测,对 autonomous software engineering 的外溢很明确。

它没有升到更高等级,是因为 judge 体系仍然复杂,成本与可重复性还要观察;此外它目前聚焦 web engineering,虽然代表性强,但还不是整个 coding-agent 评测的统一上位框架。

链接