AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-02
arXiv: 2602.02475

收录解读

随着 AI agents 开始执行长链条、多工具、甚至多代理协作任务，一个越来越突出的痛点是失败定位。很多系统只能给出最终成败，却很难指出轨迹中第一个不可恢复的错误发生在哪里，也难以稳定判断它属于工具异常、策略偏移还是策略与环境交互中的更深层失配。

AgentRx 的核心贡献是把 agent debugging 从模糊的 post-hoc 解释改成可执行、可审计的诊断流程。它先把异构轨迹统一成中间表示，再结合 tool schema 与 domain policy 自动合成 guarded constraints，逐步检查每一步约束是否被违反，并生成带证据的 validation log，最后再由 LLM judge 基于该日志去定位 critical failure step 与 failure category。作者同时发布了包含 115 条人工标注失败轨迹的 benchmark 和 grounded failure taxonomy。

这让它不只是又一篇 reliability paper，而是给 agent engineering 提供了一条更耐久的诊断接口。对仓库来说，它和 guardrail、permissioning、computer-use safety、governed execution 这些线都能对接，因为真正的价值在于把失败归因、可观察性和可复盘性收敛到统一框架里。相比只报成功率的 agent benchmark，这类 failure-diagnosis primitive 更可能被后续系统复用。

它暂时还不适合更高分级，原因在于当前证据主要集中在三类 domain 和作者自建 benchmark，生态扩散与跨系统复现仍需要时间验证。它更像一条很强的 agent diagnosis 基础模式，而不是已经改写整个 agent reliability 范式的总蓝图。

链接

论文链接