TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-08
arXiv: 2604.07223

收录解读

这篇论文瞄准的是一个在 agent systems 里越来越关键但之前缺少系统评测的问题：随着 LLM 从聊天接口转向多步 tool-calling execution，真正的风险表面已经从最终自然语言输出转移到中间执行轨迹，但大多数 guardrail 评测仍停留在 final-response safety。结果是很多看起来“安全”的系统，在真实工具轨迹里仍可能暴露 prompt injection、隐私泄漏、幻觉传染和接口状态错配等风险。

TraceSafe 的核心贡献不是再造一个单点防御器，而是提出面向 mid-trajectory safety 的系统 benchmark。论文构建了 TraceSafe-Bench，覆盖 12 类风险、超过 1000 个执行实例，并统一评测 13 个 LLM-as-a-guard 模型与 7 类专用 guardrails。它把 safety 问题从“最后一句话是否违规”改写成“执行过程中每一步是否仍可控、可审计、可拦截”，这对 tool-use agents 的评测接口有明显外溢。

这篇应收进仓库，因为它补的是 governed execution 主线里此前相对缺口的一层：trajectory-level safety evaluation。相比只做 policy、runtime enforcement 或 static verification，TraceSafe 让我们能系统比较 guardrails 在多步真实工具调用中的结构性瓶颈，适合作为后续 agent safety、tool risk mitigation、trajectory diagnosis 和 deployment review 的基础参考。

这篇目前仍是 arXiv 预印本，主要价值在 benchmark 与系统性评测，而不是提出一个已经被广泛验证的新 guardrail 标准栈。它更像一个非常强的 evaluation interface 和 failure-surface clarifier，还没有达到范式级改写，因此先定为 `breakthrough`。

链接

论文链接