智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-11
arXiv
2605.10912

收录解读

WildClawBench 针对现有 agent benchmark 的沙盒化、短任务和 mock service 问题,构建 native-runtime long-horizon agent evaluation suite。

它覆盖 productivity、code intelligence、social interaction、search/retrieval、creative synthesis 和 safety alignment 六类任务,并要求 agent 在真实 CLI harness、文件系统、工具和容器环境中完成多步工作。

它值得正式收录,因为它把 agent 评测推向真实运行时、可审计轨迹、双语与多模态任务的组合,对 coding agents、computer-use agents 和 tool agents 都有复用价值。

它没有更高,是因为任务数仍为 60,benchmark 生态和防过拟合机制需要时间检验。

链接