智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-12
arXiv
2604.10577

收录解读

问题与背景:computer-use agents 的安全评测通常盯显式恶意请求和 prompt injection,但真实部署里更危险的是用户指令本身看似良性,风险埋在环境状态、执行后果或被拆分后的子任务里。

方法与新意:论文提出 OS-BLIND,包含 300 个跨 12 类、8 个应用的人写任务,覆盖环境嵌入威胁和 agent 主动造成的伤害。它把安全问题从“拒绝恶意文本”转向“执行过程中持续识别危险后果”。

收录意义:这篇是 agent safety 的高价值基准,因为它暴露了当前安全对齐的触发时机缺陷:模型往往只在前几步检查风险,多步执行和多 agent 分解会稀释危险语义。对安全 runtime、权限边界、持续监控和子任务审计都有直接参考。

局限:OS-BLIND 仍主要是 benchmark 与现象揭示,防御方案不完整;具体 ASR 也依赖所选 agent harness 和应用环境。因此按 breakthrough 收录。

链接