WebCompass: Towards Multimodal Web Coding Evaluation for Autonomous Coding Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-21
arXiv: 2604.18224

收录解读

这篇论文针对当前 coding-agent 评测的一个明显盲点：现有 benchmark 多半只测文本条件下的代码生成和静态正确性，几乎不覆盖真实 web engineering 中的视觉保真、交互行为、编辑修复流程以及代码库级推理。WebCompass 的目标就是把这整条生命周期拉进统一评测。

数据设计上，WebCompass 横跨 text/image/video 三种输入模态，以及 generation/editing/repair 三类任务，形成七类 web engineering 场景；评测上，编辑和修复采用 checklist-guided LLM judge，生成部分则引入 agent-as-a-judge，让评测 agent 在真实浏览器里运行、探索交互并给出更接近实际体验的判断。

它值得正式收录，因为这是 coding-agent / computer-use 方向非常缺的 durable evaluation interface。它不只是多一套题，而是把 web coding 作为带视觉、交互和维护闭环的长期任务来测，对 autonomous software engineering 的外溢很明确。

它没有升到更高等级，是因为 judge 体系仍然复杂，成本与可重复性还要观察；此外它目前聚焦 web engineering，虽然代表性强，但还不是整个 coding-agent 评测的统一上位框架。

链接

论文链接