Certifiably Robust RAG against Retrieval Corruption

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2024-05-24
arXiv: 2405.15556

收录解读

RAG 系统的一个核心脆弱点是 retrieval corruption：攻击者只要向检索结果里注入恶意文段，就可能把最终回答拉偏。大多数现有防御依赖启发式过滤、重排序或 prompt-level 规避，缺少能够对攻击上界给出形式保证的机制，因此很难说系统在面对自适应攻击时究竟有多稳。

RobustRAG 提出 isolate-then-aggregate 的防御框架：先把检索到的 passages 隔离成若干互不重叠的组，再分别基于每组 passages 生成回答，最后对这些回答做安全聚合，从而削弱少量恶意文段对整体输出的操控能力。作者进一步给出面向非结构化文本回答的 keyword-based 和 decoding-based aggregation 实例，并证明在攻击者至多注入有界数量恶意 passages 的前提下，系统可以对回答质量给出可认证的下界。

这篇工作值得收录，因为它把 RAG 安全从经验性 defense 推进到 certifiable robustness。对 retrieval-augmented systems、enterprise knowledge agents 和任何依赖外部知识拼装上下文的工作流来说，这种 isolate-then-aggregate 的防御思路都比单纯检测或重排更耐久，也更适合作为安全基线。

它没有升到更高一级，是因为当前方法仍聚焦 retrieval corruption 这一明确攻击面，尚未扩展成更广 RAG 安全统一框架。它是非常强的安全方法论文，但作用范围仍相对明确。

链接

论文链接