可解释性与机制分析
颠覆级
暂无讲解视频
收录解读
Prompt injection 的已有解释往往停留在接口层:哪些输入来自 system、user、tool 或 external content,以及为什么模型没能遵守这些边界。但大量防御实践已经表明,哪怕接口层角色边界写得很清楚,模型依然会把恶意内容当成高权限指令执行。
这篇工作给出一个更底层的解释:role confusion。作者通过 role probes 测量模型内部是如何判断“谁在说话”的,结果显示模型更依赖文本的写法和语气来推断 authority,而不是依赖内容来源边界。由此,模仿高权限语气的非可信文本会在 latent space 里继承对应权威,从而统一解释多种 prompt injection 攻击。
这篇工作值得收录,而且我给到 disruptive,因为它把 prompt injection 从 interface-spec compliance 问题改写成 latent authority assignment 问题。这个重述不只是解释现象,而是会直接改变后续防御设计、评估方式以及我们对 agent 安全边界的理解。
它没有升到 paradigm,是因为当前虽然机制解释很强,但离形成统一的训练、架构和 runtime 安全蓝图还差一步。它已经明显高于经验性 attack paper,但还未完全沉淀成全行业默认范式。