T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-21
arXiv: 2603.22341

收录解读

这篇论文针对一个已经变得现实但仍缺少系统方法的问题：传统 LLM 红队主要诱导有害文本输出，却难以覆盖多步工具执行中的 agent 漏洞，尤其是在 MCP 这类快速扩张的工具生态里。仅看单轮文本对齐已经不足以刻画代理系统的真实风险，攻击是否真的通过工具链被执行，才是更关键的安全边界。

论文提出 T-MAP，把红队搜索对象从孤立提示词扩展到执行轨迹，并用 trajectory-aware evolutionary search 自动生成更有效的攻击样本。核心新意不只是 evolutionary search 本身，而是把执行轨迹反馈显式纳入攻击优化目标，使搜索过程直接朝着有害目标的实现率而不是表面越狱率收敛。

它对本仓库的价值在于 agent safety 的方法接口很明确：安全评测不再停留在文本层，而要落到真实 tool-use 轨迹、攻击实现率和跨环境迁移性上。这使它更像一个可复用的 agent 红队范式，而不是又一篇针对单模型的越狱论文。

局限也很清楚：目前证据主要集中在 MCP 风格环境和自动攻击生成流程，还不是统一的 agent 安全理论或通用防御框架。它更像是在现有 agent tool-use 安全问题上建立了高质量攻击基线，因此收为 breakthrough，而不抬到更高等级。

链接

论文链接