Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

安全、治理与可靠性突破级暂无讲解视频

发表时间: 2026-04-23
arXiv: 2604.21131

收录解读

这篇论文解决的是当前 agent guardrails 一个很少被正面处理的盲点：多数防护都按单 session 判定，而现实攻击完全可以把 payload 分散到多次会话里，让任何单次检测都看不到完整恶意意图。

它的贡献是三层同时补齐。第一层是 CSTM-Bench，把 cross-session threat taxonomy、identity anchors 和 benign confounders 系统化；第二层是 measurement，直接证明无论 session-bound judge 还是简单拼成长上下文的 full-log correlator，都在真正的 cross-session 场景里丢大量 recall；第三层是 bounded-memory reader，用 coreset 思路保留高信号片段。

它值得正式收录，因为这里定义了一个新的安全边界模型，也提供了相应 benchmark 和算法。这种‘跨会话聚合才显形’的攻击面，和 agent memory / long-horizon autonomy 的主线高度耦合，后续外溢潜力很大。

它没有更高，是因为当前 correlator family 与评测规模还偏早期，距离形成更广泛的 cross-session safety 标准还差进一步扩展。

链接

论文链接代码