智能体与自主科学
突破级
暂无讲解视频
收录解读
随着 AI agents 获得更强的工具调用和环境交互能力,安全失败不再只是单轮输出失误,而是会沿着完整轨迹累积并最终转化为真实行动风险。现有 guardrail 往往只给出二元拦截判断,缺少对 agentic 风险的细粒度刻画,也缺少对失败根因的诊断能力。
AgentDoG 的核心贡献是把 agent safety 做成一个可复用的结构化框架:先提出按风险来源、失败方式和后果组织的三维 taxonomy,再据此构造细粒度 benchmark,并在运行时对 agent trajectory 做带上下文的诊断式监控。它不仅判断是否不安全,还尝试定位问题发生在何处、如何发生、会造成什么后果。
这使它不只是又一个安全分类器,而更像 agent safety 的统一诊断接口。对本仓库来说,它属于能够外溢到工具代理、电脑操作代理和多代理系统的 reusable evaluation-and-guardrail pattern,和我们关注的 permissioning、trajectory evaluation、execution governance 是同一主线。
它目前仍主要是安全治理层和评测层的推进,而不是对 agent 基础范式的重写;同时其影响力和跨生态验证还没有达到更高等级。因此正式收录没有问题,但当前更合理的层级仍是 breakthrough。