安全、治理与可靠性
突破级
暂无讲解视频
收录解读
这篇论文解决的是当前 agent guardrails 一个很少被正面处理的盲点:多数防护都按单 session 判定,而现实攻击完全可以把 payload 分散到多次会话里,让任何单次检测都看不到完整恶意意图。
它的贡献是三层同时补齐。第一层是 CSTM-Bench,把 cross-session threat taxonomy、identity anchors 和 benign confounders 系统化;第二层是 measurement,直接证明无论 session-bound judge 还是简单拼成长上下文的 full-log correlator,都在真正的 cross-session 场景里丢大量 recall;第三层是 bounded-memory reader,用 coreset 思路保留高信号片段。
它值得正式收录,因为这里定义了一个新的安全边界模型,也提供了相应 benchmark 和算法。这种‘跨会话聚合才显形’的攻击面,和 agent memory / long-horizon autonomy 的主线高度耦合,后续外溢潜力很大。
它没有更高,是因为当前 correlator family 与评测规模还偏早期,距离形成更广泛的 cross-session safety 标准还差进一步扩展。