智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-30
arXiv
2604.28139

收录解读

这篇论文命中的问题很准:很多 agent benchmark 一旦发布就被冻结,任务集合和真实 workflow demand 很快脱节,而且评分常常只看 final response。Claw-Eval-Live 把这两个缺口一起补上。

它的核心设计是把外部变化的需求信号层和可复现的 release snapshot 分开,同时在 grading 上落到 execution traces、audit logs、service state 和 workspace artifacts,而不是只看回答文本。

它值得正式收录,因为这是一个很强的 workflow-agent benchmark interface primitive。对本库一直关注的 Claw / workspace / local-first / business-service agent 评测都高度相关。

它没有更高,是因为当前主要贡献仍在 benchmark operating layer,而不是一个已经改变 agent architecture 的方法学突破。

链接