理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-04-13
arXiv
2604.11806

收录解读

这篇论文关注一个实际但被低估的 agent 安全问题:违规行为往往不是单条 trace 就能看出来,而是隐藏在大量 agent 轨迹的群体模式、跨任务关联或稀有异常中。传统逐条 judge、固定 monitor 或人工 spot check 都容易漏掉这种跨 trace 的风险。

作者提出 Meerkat,把聚类与 agentic search 组合起来,让审计器先把大量轨迹组织成可搜索区域,再对高风险区域做自适应调查。它支持用自然语言指定违规类型,目标不是训练一个固定分类器,而是形成可迭代的稀有风险发现流程。

它值得正式收录,是因为它给 agent safety 提供了一个可复用的审计 primitive:从单轨迹判定转向 trace 集合级别的搜索、聚类和调查。这对于 misuse campaign、reward hacking、prompt injection、covert sabotage 等场景都有直接方法迁移价值。

局限在于效果仍取决于轨迹表示、聚类质量和审计 agent 的调查能力;它是安全审计工作流的强接口,而不是完整的形式化保证。

链接