智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-18
arXiv
2603.18059

收录解读

从脚本、CI bot 到 tool-using agents,很多真实失败并不是模型回答错了一句,而是在执行层产生了不安全副作用、无效参数、失控重试或敏感信息泄漏。仅靠 prompt patch 或模型内安全策略,既脆弱,又无法覆盖非 LLM caller。

这篇工作的关键转向,是把 guardrails 从 model-centric mitigation 改写为 policy-first execution infrastructure。论文提出一个紧凑的 policy DSL、一个对 tool invocation 做约束和风险分级的 runtime enforcement layer,以及带 rationale 与 fix hints 的执行反馈接口。配套的 trace-replay benchmark 则把 violation prevention、retry amplification、secret leakage recall 与 task success 放在同一张 safety-utility tradeoff 图里。

它值得正式收录,因为真正有复用价值的是 execution-layer pattern:任何 tool-orchestrated workflow,不管调用方是不是 LLM,都可以在工具边界上接入显式策略、恢复控制和可审计解释。这条路线和我们仓库里已有的 permissioning、governed execution、agent safety、secure computer-use 形成了明显的系统主线。

它没有升到更高一级,是因为当前验证仍以 replay benchmark 和作者定义的 policy packs 为主,距离被广泛采纳为通用 execution substrate 还有距离。现阶段更像非常强的 infrastructure blueprint,而不是已经完成范式替换的事实标准。

链接