Detecting Safety Violations Across Many Agent Traces

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2026-04-13
arXiv: 2604.11806

收录解读

这篇论文关注一个实际但被低估的 agent 安全问题：违规行为往往不是单条 trace 就能看出来，而是隐藏在大量 agent 轨迹的群体模式、跨任务关联或稀有异常中。传统逐条 judge、固定 monitor 或人工 spot check 都容易漏掉这种跨 trace 的风险。

作者提出 Meerkat，把聚类与 agentic search 组合起来，让审计器先把大量轨迹组织成可搜索区域，再对高风险区域做自适应调查。它支持用自然语言指定违规类型，目标不是训练一个固定分类器，而是形成可迭代的稀有风险发现流程。

它值得正式收录，是因为它给 agent safety 提供了一个可复用的审计 primitive：从单轨迹判定转向 trace 集合级别的搜索、聚类和调查。这对于 misuse campaign、reward hacking、prompt injection、covert sabotage 等场景都有直接方法迁移价值。

局限在于效果仍取决于轨迹表示、聚类质量和审计 agent 的调查能力；它是安全审计工作流的强接口，而不是完整的形式化保证。

链接

论文链接