智能体与自主科学
突破级
暂无讲解视频
收录解读
WildClawBench 针对现有 agent benchmark 的沙盒化、短任务和 mock service 问题,构建 native-runtime long-horizon agent evaluation suite。
它覆盖 productivity、code intelligence、social interaction、search/retrieval、creative synthesis 和 safety alignment 六类任务,并要求 agent 在真实 CLI harness、文件系统、工具和容器环境中完成多步工作。
它值得正式收录,因为它把 agent 评测推向真实运行时、可审计轨迹、双语与多模态任务的组合,对 coding agents、computer-use agents 和 tool agents 都有复用价值。
它没有更高,是因为任务数仍为 60,benchmark 生态和防过拟合机制需要时间检验。