理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
这篇论文把 prompt injection 的攻击面从纯文本扩展到视觉输入:恶意指令可以被渲染成图像中的文字,绕过文本安全路径,进入 VLM 感知层。对于 browser automation、computer-use agent 和摄像头具身 agent,这是现实风险。
它的价值在于不仅报告攻击成功率,还系统改变字体大小、旋转、模糊、噪声和对比度,并把成功率与 text-image embedding alignment 关联起来,为预测哪些 VLM 更容易被视觉文本劫持提供机制线索。
按本库标准,它是 VLM/agent safety 的正式收录项,因为它提出了可复用的威胁模型、评估设置和防御分析入口,而不是一次性 jailbreak prompt。
局限是实验集中在 typographic attack,真实网页和物理环境中的多模态注入还会涉及布局、注意力竞争和交互上下文。