智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文关注 web/computer-use agent 评测的真实性问题。很多已有 benchmark 使用离线沙箱、静态页面或固定 DOM,虽然可复现性强,但远离真实网页里的登录、cookie、弹窗、动态内容、多表单填写、写操作和平台变化。ClawBench 把问题直接放到生产网站中的日常任务上。
ClawBench 构建了 153 个日常在线任务,覆盖 144 个真实平台和 15 类生活/工作场景,包括购物、预约、求职、办公、社交、娱乐、开发等。它强调 live-web execution、write-heavy tasks、五层记录和 agentic evaluator,以便把失败追踪到具体步骤,而不仅仅给出最终页是否匹配。
它值得收录,因为它给当前 agent 能力评估提供了一个很有冲击力的现实校准:一些模型在 OSWorld/WebArena 等传统 benchmark 上能达到 65-75%,但在 ClawBench 上显著下滑,最强模型也只有约三分之一成功率。这种差距对仓库的 agent evaluation 主线很重要,说明受控 benchmark 成功不能直接等价于真实网页能力。
它不是更高一级,主要因为 live-web benchmark 天然面临可复现性、网站变动、账号/支付/隐私安全和长期维护成本问题;尽管论文提供了评测管线,未来能否成为稳定社区标准仍取决于维护和版本治理。