Reading Between the Pixels: Linking Text-Image Embedding Alignment to Typographic Attack Success on Vision-Language Models

理论、鲁棒性与核心机器学习突破级暂无讲解视频

收录解读

这篇论文把 prompt injection 的攻击面从纯文本扩展到视觉输入：恶意指令可以被渲染成图像中的文字，绕过文本安全路径，进入 VLM 感知层。对于 browser automation、computer-use agent 和摄像头具身 agent，这是现实风险。

它的价值在于不仅报告攻击成功率，还系统改变字体大小、旋转、模糊、噪声和对比度，并把成功率与 text-image embedding alignment 关联起来，为预测哪些 VLM 更容易被视觉文本劫持提供机制线索。

按本库标准，它是 VLM/agent safety 的正式收录项，因为它提出了可复用的威胁模型、评估设置和防御分析入口，而不是一次性 jailbreak prompt。

局限是实验集中在 typographic attack，真实网页和物理环境中的多模态注入还会涉及布局、注意力竞争和交互上下文。