Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-25
arXiv: 2602.22450

收录解读

随着 agent 系统越来越多地自动打开 URL、读取网页预览、调用外部工具，安全风险不再只发生在最终可见回答里。系统可能在用户看不到的中间步骤里发出外联请求，把敏感上下文悄悄带出运行环境，而现有输出级 safety checks 往往根本察觉不到。

Silent Egress 针对这一点提出 implicit prompt injection 的系统级风险图景：恶意网页可以把攻击藏在自动生成的标题、metadata 和 snippets 里，诱导 agent 触发 outbound requests 并外泄敏感信息。论文进一步提出 sharded exfiltration，把泄露内容拆成多次请求以绕过简单 DLP，并用实验表明 prompt-layer 防御保护有限，而 domain allowlisting、redirect-chain analysis 等 system/network controls 更有效。

这篇工作值得收录，因为它把网络外联本身提升为 agent security 的 first-class outcome。与很多只盯回答文本的安全论文不同，这篇工作把关注点推到 runtime 和 network boundary，对真实部署的 agent sandbox、egress control 和 provenance tracking 都有直接启发。

它没有升到更高一级，是因为当前主要是单条风险线上的强系统安全论文，虽然问题切得很准，但还没有像更高阶工作那样给出统一的 agent runtime security architecture。它非常值得收，但暂时仍属于强突破级。

链接

论文链接