The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

智能体与自主科学突破级暂无讲解视频

收录解读

问题与背景：computer-use agents 的安全评测通常盯显式恶意请求和 prompt injection，但真实部署里更危险的是用户指令本身看似良性，风险埋在环境状态、执行后果或被拆分后的子任务里。

方法与新意：论文提出 OS-BLIND，包含 300 个跨 12 类、8 个应用的人写任务，覆盖环境嵌入威胁和 agent 主动造成的伤害。它把安全问题从“拒绝恶意文本”转向“执行过程中持续识别危险后果”。

收录意义：这篇是 agent safety 的高价值基准，因为它暴露了当前安全对齐的触发时机缺陷：模型往往只在前几步检查风险，多步执行和多 agent 分解会稀释危险语义。对安全 runtime、权限边界、持续监控和子任务审计都有直接参考。

局限：OS-BLIND 仍主要是 benchmark 与现象揭示，防御方案不完整；具体 ASR 也依赖所选 agent harness 和应用环境。因此按 breakthrough 收录。