智能体与自主科学
颠覆级
有讲解视频
收录解读
间接 prompt injection 的核心问题,不只是模型会不会识别恶意内容,而是传统 agent 会把工具输出、网页内容和中间痕迹一股脑塞进同一上下文,导致恶意指令在整个工作流里持续驻留并反复影响决策。现有防御大多默认这种 bloated memory 是既定条件,再在其上做过滤、检测或鲁棒 prompting。
AgentSys 直接改写了这个前提。它把 agent 组织成带层级隔离的结构:主 agent 为工具调用生成 worker agent,每个 worker 在独立上下文中运行,外部数据和子任务痕迹不进入主 agent 记忆,只有经过 schema 校验和确定性 JSON 解析的返回值可以跨边界流动。论文还加入 validator/sanitizer,并把防御开销做成与操作次数而不是上下文长度相关。
这篇工作值得收录,而且我给到 disruptive,因为它把 agent prompt injection 防御从“在污染上下文里尽量变稳”转向“通过显式记忆隔离阻止污染进入主工作记忆”。这不是一个局部 patch,而是一种更耐久的 agent runtime 安全组织方式,对浏览器 agent、API agent 和企业自动化流程都有直接复用价值。
它没有升到 paradigm,是因为当前证据还主要集中在 AgentDojo、ASB 和作者实现生态内,尚未成为行业默认的 agent sandbox / runtime blueprint。但作为一条系统级安全路线,它已经明显高于普通 benchmark defense。