Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-18
arXiv: 2603.18059

收录解读

从脚本、CI bot 到 tool-using agents，很多真实失败并不是模型回答错了一句，而是在执行层产生了不安全副作用、无效参数、失控重试或敏感信息泄漏。仅靠 prompt patch 或模型内安全策略，既脆弱，又无法覆盖非 LLM caller。

这篇工作的关键转向，是把 guardrails 从 model-centric mitigation 改写为 policy-first execution infrastructure。论文提出一个紧凑的 policy DSL、一个对 tool invocation 做约束和风险分级的 runtime enforcement layer，以及带 rationale 与 fix hints 的执行反馈接口。配套的 trace-replay benchmark 则把 violation prevention、retry amplification、secret leakage recall 与 task success 放在同一张 safety-utility tradeoff 图里。

它值得正式收录，因为真正有复用价值的是 execution-layer pattern：任何 tool-orchestrated workflow，不管调用方是不是 LLM，都可以在工具边界上接入显式策略、恢复控制和可审计解释。这条路线和我们仓库里已有的 permissioning、governed execution、agent safety、secure computer-use 形成了明显的系统主线。

它没有升到更高一级，是因为当前验证仍以 replay benchmark 和作者定义的 policy packs 为主，距离被广泛采纳为通用 execution substrate 还有距离。现阶段更像非常强的 infrastructure blueprint，而不是已经完成范式替换的事实标准。

链接

论文链接