智能体与自主科学
突破级
暂无讲解视频
收录解读
随着 agent 系统越来越多地自动打开 URL、读取网页预览、调用外部工具,安全风险不再只发生在最终可见回答里。系统可能在用户看不到的中间步骤里发出外联请求,把敏感上下文悄悄带出运行环境,而现有输出级 safety checks 往往根本察觉不到。
Silent Egress 针对这一点提出 implicit prompt injection 的系统级风险图景:恶意网页可以把攻击藏在自动生成的标题、metadata 和 snippets 里,诱导 agent 触发 outbound requests 并外泄敏感信息。论文进一步提出 sharded exfiltration,把泄露内容拆成多次请求以绕过简单 DLP,并用实验表明 prompt-layer 防御保护有限,而 domain allowlisting、redirect-chain analysis 等 system/network controls 更有效。
这篇工作值得收录,因为它把网络外联本身提升为 agent security 的 first-class outcome。与很多只盯回答文本的安全论文不同,这篇工作把关注点推到 runtime 和 network boundary,对真实部署的 agent sandbox、egress control 和 provenance tracking 都有直接启发。
它没有升到更高一级,是因为当前主要是单条风险线上的强系统安全论文,虽然问题切得很准,但还没有像更高阶工作那样给出统一的 agent runtime security architecture。它非常值得收,但暂时仍属于强突破级。