智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-26
arXiv
2604.23581

收录解读

这篇论文的推进点很明确:把 agent evaluation 从结果对不对,推进到 workflow 内部每一步怎么坏、为什么坏、坏点如何沿依赖关系传播。它把执行轨迹形式化成 evaluation DAG,这比平铺 step-level 打分更接近真实 agent 系统的因果结构。

更关键的是这里不是停在概念层。作者给了 typed quality metrics、三层 failure taxonomy、automated root-cause attribution,而且在 production workflow、τ-bench 和 SWE-bench traces 上都验证了迁移性。对 CI/CD 场景的 regression detection 也有直接证据。

它值得正式收录,因为这提供的是一个可复用 evaluation interface,而不是一个一次性的 benchmark 分数。后续不管是 computer-use agent、tool-using agent 还是 coding agent,只要执行过程存在依赖图,就能复用这套评测结构。

它没有更高,是因为当前 judge 仍依赖 GPT-4o,且主要验证对象以顺序型或近 DAG 型 workflow 为主;对更动态、强分叉、多并发 agent 架构的适配性还要继续看。

链接