理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-04-14
arXiv
2604.12371

收录解读

这篇论文把 prompt injection 的攻击面从纯文本扩展到视觉输入:恶意指令可以被渲染成图像中的文字,绕过文本安全路径,进入 VLM 感知层。对于 browser automation、computer-use agent 和摄像头具身 agent,这是现实风险。

它的价值在于不仅报告攻击成功率,还系统改变字体大小、旋转、模糊、噪声和对比度,并把成功率与 text-image embedding alignment 关联起来,为预测哪些 VLM 更容易被视觉文本劫持提供机制线索。

按本库标准,它是 VLM/agent safety 的正式收录项,因为它提出了可复用的威胁模型、评估设置和防御分析入口,而不是一次性 jailbreak prompt。

局限是实验集中在 typographic attack,真实网页和物理环境中的多模态注入还会涉及布局、注意力竞争和交互上下文。

链接