WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-11
arXiv: 2605.10912

收录解读

WildClawBench 针对现有 agent benchmark 的沙盒化、短任务和 mock service 问题，构建 native-runtime long-horizon agent evaluation suite。

它覆盖 productivity、code intelligence、social interaction、search/retrieval、creative synthesis 和 safety alignment 六类任务，并要求 agent 在真实 CLI harness、文件系统、工具和容器环境中完成多步工作。

它值得正式收录，因为它把 agent 评测推向真实运行时、可审计轨迹、双语与多模态任务的组合，对 coding agents、computer-use agents 和 tool agents 都有复用价值。

它没有更高，是因为任务数仍为 60，benchmark 生态和防过拟合机制需要时间检验。

链接

论文链接代码代码