安全、治理与可靠性
突破级
暂无讲解视频
收录解读
这篇论文针对 open-world agents 的安全问题:当 agent 能操作文件、浏览器、终端和多环境任务时,传统聊天安全分类和单轮 moderation 明显不够。
AgentDoG 1.5 更新 agent safety taxonomy,并用 taxonomy-guided data engine 与 influence-function purification 构造小规模高质量训练数据,训练轻量安全模型,再接入 SFT/RL 训练环境和在线 guardrail。
关键外溢是它把 agent safety 从 prompt-level 判别推进到可训练、可部署、可扩展的 agent execution safety stack,强调 Docker/执行环境中的低开销实时监管。
它值得收录,因为本库关注可复用 agent safety 边界、guardrail 架构和执行风险控制;AgentDoG 1.5 正好给出一个面向开放执行 agent 的轻量对齐和在线防护框架。