收录解读
agentic workflow 的合规评测常默认只看最终系统状态是否与 ground truth 一致,但这会漏掉一类更危险的错误:agent 实际上绕过了必要的 policy checks,只是恰好在这次轨迹里得到了正确结果。问题不只是 policy violation 有没有发生,而是当前评测常看不到“决策过程本身已经失真”的 latent failure。
Near-Miss 针对这一盲点提出 latent policy failure metric。它建立在 ToolGuard 这类把自然语言 policy 编译成可执行 guard code 的框架上,但进一步分析完整 agent trajectories,判断 agent 的 tool-calling decisions 是否建立在充分、合规的信息条件之上,而不是只比较终态是否正确。这样评测目标从 outcome correctness 延伸到了 process validity。
这篇工作值得收录,因为它把 agent evaluation 从“最终结果对不对”推进到“决策过程是否真正遵守约束”。对 enterprise workflow agents、tool-use compliance 和安全审计,这是一种更耐久的评估视角,也直指当前很多 agent benchmark 的结构性盲点。
它没有升到更高一级,是因为当前验证仍主要集中在 business-process automation 与 ToolGuard/τ²-verified Airlines 这一类设定上。它提出了重要 blind spot 和可执行 metric,但是否会成为更广 agent evaluation 的默认标准,还需要更多跨场景验证。