安全、治理与可靠性 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.29801

收录解读

这篇论文针对 open-world agents 的安全问题:当 agent 能操作文件、浏览器、终端和多环境任务时,传统聊天安全分类和单轮 moderation 明显不够。

AgentDoG 1.5 更新 agent safety taxonomy,并用 taxonomy-guided data engine 与 influence-function purification 构造小规模高质量训练数据,训练轻量安全模型,再接入 SFT/RL 训练环境和在线 guardrail。

关键外溢是它把 agent safety 从 prompt-level 判别推进到可训练、可部署、可扩展的 agent execution safety stack,强调 Docker/执行环境中的低开销实时监管。

它值得收录,因为本库关注可复用 agent safety 边界、guardrail 架构和执行风险控制;AgentDoG 1.5 正好给出一个面向开放执行 agent 的轻量对齐和在线防护框架。

链接