ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.24414

收录解读

随着 OpenClaw 这类本地自主 agent runtime 拿到文件系统、shell 和插件调用权限，agent safety 的问题已经不再是抽象对齐口号，而是会直接变成系统级风险：敏感信息泄露、权限滥用、恶意第三方 skill 执行都可能来自一次模型判断失误。ClawKeeper 处理的正是这种 runtime-level agent safety，而不是单轮提示防御。

论文提出三层联防架构。第一层是 skill-based protection，在 agent 指令与上下文层注入结构化安全策略；第二层是 plugin-based protection，在运行期做配置加固、威胁检测和行为监控；第三层是 watcher-based protection，把安全中间件从 agent 内部逻辑中解耦出来，持续校验 agent 状态演化并在高风险动作出现时执行阻断或人工确认。这里真正有新意的是 Watcher 这一 decoupled safety middleware 设计，它把干预点放到了 agent runtime 外围而不是模型内部。

这篇工作值得正式收录，因为它把 agent safety 从 prompt-level guardrails 推进到了更贴近真实系统部署的 runtime architecture。对 skills、plugins、local shell execution 这些高风险 agent interface 来说，这种分层保护和外置 watcher 机制具备直接复用价值，也和仓库已纳入的 agent safety / computer-use 主线高度一致。

它目前仍是 breakthrough，而不是更高一级，因为证据主要围绕 OpenClaw 生态和一组具体威胁场景，距离成为更广 agent runtime 的通用安全底座还有距离。它已经很有工程价值，但跨框架可迁移性、误报漏报代价和长期生产环境表现还需要更多公开验证。

链接

论文链接