AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-26
arXiv: 2604.23581

收录解读

这篇论文的推进点很明确：把 agent evaluation 从结果对不对，推进到 workflow 内部每一步怎么坏、为什么坏、坏点如何沿依赖关系传播。它把执行轨迹形式化成 evaluation DAG，这比平铺 step-level 打分更接近真实 agent 系统的因果结构。

更关键的是这里不是停在概念层。作者给了 typed quality metrics、三层 failure taxonomy、automated root-cause attribution，而且在 production workflow、τ-bench 和 SWE-bench traces 上都验证了迁移性。对 CI/CD 场景的 regression detection 也有直接证据。

它值得正式收录，因为这提供的是一个可复用 evaluation interface，而不是一个一次性的 benchmark 分数。后续不管是 computer-use agent、tool-using agent 还是 coding agent，只要执行过程存在依赖图，就能复用这套评测结构。

它没有更高，是因为当前 judge 仍依赖 GPT-4o，且主要验证对象以顺序型或近 DAG 型 workflow 为主；对更动态、强分叉、多并发 agent 架构的适配性还要继续看。

链接

论文链接