ClawBench: Can AI Agents Complete Everyday Online Tasks?

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08523

收录解读

这篇论文关注 web/computer-use agent 评测的真实性问题。很多已有 benchmark 使用离线沙箱、静态页面或固定 DOM，虽然可复现性强，但远离真实网页里的登录、cookie、弹窗、动态内容、多表单填写、写操作和平台变化。ClawBench 把问题直接放到生产网站中的日常任务上。

ClawBench 构建了 153 个日常在线任务，覆盖 144 个真实平台和 15 类生活/工作场景，包括购物、预约、求职、办公、社交、娱乐、开发等。它强调 live-web execution、write-heavy tasks、五层记录和 agentic evaluator，以便把失败追踪到具体步骤，而不仅仅给出最终页是否匹配。

它值得收录，因为它给当前 agent 能力评估提供了一个很有冲击力的现实校准：一些模型在 OSWorld/WebArena 等传统 benchmark 上能达到 65-75%，但在 ClawBench 上显著下滑，最强模型也只有约三分之一成功率。这种差距对仓库的 agent evaluation 主线很重要，说明受控 benchmark 成功不能直接等价于真实网页能力。

它不是更高一级，主要因为 live-web benchmark 天然面临可复现性、网站变动、账号/支付/隐私安全和长期维护成本问题；尽管论文提供了评测管线，未来能否成为稳定社区标准仍取决于维护和版本治理。

链接

论文链接