智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-25
arXiv
2603.24414

收录解读

随着 OpenClaw 这类本地自主 agent runtime 拿到文件系统、shell 和插件调用权限,agent safety 的问题已经不再是抽象对齐口号,而是会直接变成系统级风险:敏感信息泄露、权限滥用、恶意第三方 skill 执行都可能来自一次模型判断失误。ClawKeeper 处理的正是这种 runtime-level agent safety,而不是单轮提示防御。

论文提出三层联防架构。第一层是 skill-based protection,在 agent 指令与上下文层注入结构化安全策略;第二层是 plugin-based protection,在运行期做配置加固、威胁检测和行为监控;第三层是 watcher-based protection,把安全中间件从 agent 内部逻辑中解耦出来,持续校验 agent 状态演化并在高风险动作出现时执行阻断或人工确认。这里真正有新意的是 Watcher 这一 decoupled safety middleware 设计,它把干预点放到了 agent runtime 外围而不是模型内部。

这篇工作值得正式收录,因为它把 agent safety 从 prompt-level guardrails 推进到了更贴近真实系统部署的 runtime architecture。对 skills、plugins、local shell execution 这些高风险 agent interface 来说,这种分层保护和外置 watcher 机制具备直接复用价值,也和仓库已纳入的 agent safety / computer-use 主线高度一致。

它目前仍是 breakthrough,而不是更高一级,因为证据主要围绕 OpenClaw 生态和一组具体威胁场景,距离成为更广 agent runtime 的通用安全底座还有距离。它已经很有工程价值,但跨框架可迁移性、误报漏报代价和长期生产环境表现还需要更多公开验证。

链接