Near-Miss: Latent Policy Failure Detection in Agentic Workflows

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2603.29665

收录解读

agentic workflow 的合规评测常默认只看最终系统状态是否与 ground truth 一致，但这会漏掉一类更危险的错误：agent 实际上绕过了必要的 policy checks，只是恰好在这次轨迹里得到了正确结果。问题不只是 policy violation 有没有发生，而是当前评测常看不到“决策过程本身已经失真”的 latent failure。

Near-Miss 针对这一盲点提出 latent policy failure metric。它建立在 ToolGuard 这类把自然语言 policy 编译成可执行 guard code 的框架上，但进一步分析完整 agent trajectories，判断 agent 的 tool-calling decisions 是否建立在充分、合规的信息条件之上，而不是只比较终态是否正确。这样评测目标从 outcome correctness 延伸到了 process validity。

这篇工作值得收录，因为它把 agent evaluation 从“最终结果对不对”推进到“决策过程是否真正遵守约束”。对 enterprise workflow agents、tool-use compliance 和安全审计，这是一种更耐久的评估视角，也直指当前很多 agent benchmark 的结构性盲点。

它没有升到更高一级，是因为当前验证仍主要集中在 business-process automation 与 ToolGuard/τ²-verified Airlines 这一类设定上。它提出了重要 blind spot 和可执行 metric，但是否会成为更广 agent evaluation 的默认标准，还需要更多跨场景验证。

链接

论文链接