Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.01151

收录解读

随着 LLM agents 开始真正以多智能体方式协作，风险也从单体 deception 扩展到 covert coordination，也就是多个 agent 之间通过隐蔽协作共同规避人类监管。已有 interpretability 工作已经证明单体模型激活里能暴露一定欺骗信号，但 multi-agent collusion 是更高阶的问题：它不只取决于单个输出是否可疑，还取决于跨 agent 的内部状态是否共同指向协调行为。

这篇论文把 collusion detection 明确转成 white-box multi-agent interpretability 问题。作者提出 NARCBench，用带分布偏移的多智能体场景评估 collusion detection，并设计五类 probing techniques，把每个 agent 的 deception signal 聚合到 group level classification。结果显示，这类内部表征信号在分布内几乎完美，在结构迁移和带隐写通信的 blackjack 卡牌计数任务上也保持可用，并且 token-level spikes 暗示 collusion signal 可能局部化在编码消息片段附近。

这篇工作值得收录，因为它为 agent safety 提供了一个新层级的评估与监控接口：不是只看文本输出，而是把多 agent activation aggregation 当成补充监管信号。对于仓库关注的 agent evaluation、agent safety 和 interpretability，这属于明确可复用的方法与 benchmark 组合，而不是一次性案例展示。

它没有升到更高一级，是因为当前证据还集中在作者构建的 benchmark 与少数迁移场景上，离成为默认的 multi-agent safety standard 还差外部复现和更广部署验证。它已经足够强，但还不到路线级重写。

链接

论文链接