AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-01-26
arXiv: 2601.18491

收录解读

随着 AI agents 获得更强的工具调用和环境交互能力，安全失败不再只是单轮输出失误，而是会沿着完整轨迹累积并最终转化为真实行动风险。现有 guardrail 往往只给出二元拦截判断，缺少对 agentic 风险的细粒度刻画，也缺少对失败根因的诊断能力。

AgentDoG 的核心贡献是把 agent safety 做成一个可复用的结构化框架：先提出按风险来源、失败方式和后果组织的三维 taxonomy，再据此构造细粒度 benchmark，并在运行时对 agent trajectory 做带上下文的诊断式监控。它不仅判断是否不安全，还尝试定位问题发生在何处、如何发生、会造成什么后果。

这使它不只是又一个安全分类器，而更像 agent safety 的统一诊断接口。对本仓库来说，它属于能够外溢到工具代理、电脑操作代理和多代理系统的 reusable evaluation-and-guardrail pattern，和我们关注的 permissioning、trajectory evaluation、execution governance 是同一主线。

它目前仍主要是安全治理层和评测层的推进，而不是对 agent 基础范式的重写；同时其影响力和跨生态验证还没有达到更高等级。因此正式收录没有问题，但当前更合理的层级仍是 breakthrough。

链接

论文链接