智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.06132

收录解读

随着 LLM agents 逐渐进入真实软件环境,benchmark 的核心问题已经不只是任务会不会做,而是评测能不能真实反映 agent 的全过程行为。现有很多 agent benchmark 只看 final output,忽略中间轨迹、跳过安全与鲁棒性、并且模态覆盖狭窄,导致模型看起来完成了任务,但其实中途可能已经发生危险行为、脆弱决策或不可接受的失败。

Claw-Eval 的方法贡献是把 autonomous agent evaluation 做成 end-to-end 证据化体系。它用 execution traces、audit logs 和 environment snapshots 三路独立证据记录每一步动作,再围绕 300 个人工验证任务和 2,159 个细粒度 rubric 条目,对 Completion、Safety、Robustness 做 trajectory-aware grading;同时用 `Pass@k` 和 `Pass^k` 区分侥幸成功与稳定能力,并在 multimodal perception/generation 和 multi-turn dialogue 场景下统一评估。

这篇值得收录,因为它不是再加几百题任务,而是把 trustworthy agent evaluation 的接口重新定义了。特别是 evidence-channel 设计、trajectory-aware grading 和对安全/鲁棒性的显式拆分,具有很强的后续 benchmark 复用价值。它对 agent benchmarking、safety evaluation 和部署前验证都有直接方法外溢,比普通 agent leaderboard paper 更耐久。

局限也很明确:这仍然是作者自建评测套件,任务选择、rubric 设计和错误注入方式都会影响结论;而且目前还主要是 arXiv 预印本,是否会成为社区共用基线还有待验证。因此这里给 `breakthrough`,不再上调。

链接