Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文命中的问题很准：很多 agent benchmark 一旦发布就被冻结，任务集合和真实 workflow demand 很快脱节，而且评分常常只看 final response。Claw-Eval-Live 把这两个缺口一起补上。

它的核心设计是把外部变化的需求信号层和可复现的 release snapshot 分开，同时在 grading 上落到 execution traces、audit logs、service state 和 workspace artifacts，而不是只看回答文本。

它值得正式收录，因为这是一个很强的 workflow-agent benchmark interface primitive。对本库一直关注的 Claw / workspace / local-first / business-service agent 评测都高度相关。

它没有更高，是因为当前主要贡献仍在 benchmark operating layer，而不是一个已经改变 agent architecture 的方法学突破。