AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

安全、治理与可靠性突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.29801

收录解读

这篇论文针对 open-world agents 的安全问题：当 agent 能操作文件、浏览器、终端和多环境任务时，传统聊天安全分类和单轮 moderation 明显不够。

AgentDoG 1.5 更新 agent safety taxonomy，并用 taxonomy-guided data engine 与 influence-function purification 构造小规模高质量训练数据，训练轻量安全模型，再接入 SFT/RL 训练环境和在线 guardrail。

关键外溢是它把 agent safety 从 prompt-level 判别推进到可训练、可部署、可扩展的 agent execution safety stack，强调 Docker/执行环境中的低开销实时监管。

它值得收录，因为本库关注可复用 agent safety 边界、guardrail 架构和执行风险控制；AgentDoG 1.5 正好给出一个面向开放执行 agent 的轻量对齐和在线防护框架。

链接

论文链接代码