MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-01-19
arXiv: 2601.12822

收录解读

Computer-use agents 把视觉理解、界面操作和系统权限直接连在一起，风险比普通聊天模型高得多。单纯依赖检测后拒绝的防御虽然能阻断部分攻击，但会明显牺牲任务完成率，也无法真正提升 agent 在高风险 GUI 场景中的决策能力。

MirrorGuard 提出的关键思路是用 simulation-to-real 的方式训练安全修正能力。它构建神经符号的文本化 GUI 模拟流水线，合成高风险交互轨迹，再用这些轨迹去纠正真实环境中的不安全 reasoning，从而把安全改进从“检测并终止”推进到“学习如何在危险界面里继续正确完成任务”。

这条路线对仓库很有价值，因为它给 computer-use safety 提供了一个比 detector patch 更耐久的训练模式。它可以和我们已经收录的 prompt injection、role confusion、misaligned action detection、permissioning 等工作形成互补，代表了一条更接近系统训练与部署的安全方法。

它的边界在于，目前证据仍主要集中在 computer-use / GUI agent 这一子线，还没有证明能广泛外推到所有 agent 系统；同时它更像强方法而不是完整安全蓝图。所以正式收录为 breakthrough 合理，但暂不升更高。

链接

论文链接