智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-21
arXiv
2603.22341

收录解读

这篇论文针对一个已经变得现实但仍缺少系统方法的问题:传统 LLM 红队主要诱导有害文本输出,却难以覆盖多步工具执行中的 agent 漏洞,尤其是在 MCP 这类快速扩张的工具生态里。仅看单轮文本对齐已经不足以刻画代理系统的真实风险,攻击是否真的通过工具链被执行,才是更关键的安全边界。

论文提出 T-MAP,把红队搜索对象从孤立提示词扩展到执行轨迹,并用 trajectory-aware evolutionary search 自动生成更有效的攻击样本。核心新意不只是 evolutionary search 本身,而是把执行轨迹反馈显式纳入攻击优化目标,使搜索过程直接朝着有害目标的实现率而不是表面越狱率收敛。

它对本仓库的价值在于 agent safety 的方法接口很明确:安全评测不再停留在文本层,而要落到真实 tool-use 轨迹、攻击实现率和跨环境迁移性上。这使它更像一个可复用的 agent 红队范式,而不是又一篇针对单模型的越狱论文。

局限也很清楚:目前证据主要集中在 MCP 风格环境和自动攻击生成流程,还不是统一的 agent 安全理论或通用防御框架。它更像是在现有 agent tool-use 安全问题上建立了高质量攻击基线,因此收为 breakthrough,而不抬到更高等级。

链接