推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2024-05-24
arXiv
2405.15556

收录解读

RAG 系统的一个核心脆弱点是 retrieval corruption:攻击者只要向检索结果里注入恶意文段,就可能把最终回答拉偏。大多数现有防御依赖启发式过滤、重排序或 prompt-level 规避,缺少能够对攻击上界给出形式保证的机制,因此很难说系统在面对自适应攻击时究竟有多稳。

RobustRAG 提出 isolate-then-aggregate 的防御框架:先把检索到的 passages 隔离成若干互不重叠的组,再分别基于每组 passages 生成回答,最后对这些回答做安全聚合,从而削弱少量恶意文段对整体输出的操控能力。作者进一步给出面向非结构化文本回答的 keyword-based 和 decoding-based aggregation 实例,并证明在攻击者至多注入有界数量恶意 passages 的前提下,系统可以对回答质量给出可认证的下界。

这篇工作值得收录,因为它把 RAG 安全从经验性 defense 推进到 certifiable robustness。对 retrieval-augmented systems、enterprise knowledge agents 和任何依赖外部知识拼装上下文的工作流来说,这种 isolate-then-aggregate 的防御思路都比单纯检测或重排更耐久,也更适合作为安全基线。

它没有升到更高一级,是因为当前方法仍聚焦 retrieval corruption 这一明确攻击面,尚未扩展成更广 RAG 安全统一框架。它是非常强的安全方法论文,但作用范围仍相对明确。

链接