When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-09
arXiv: 2602.08995

收录解读

computer-use agents 的一类核心失败不是传统意义上的 jailbreak，而是 action 与用户真实意图逐步偏离。这样的 misaligned actions 既可能来自外部注入，也可能来自内部 reasoning 错误，最终直接造成错误操作、效率下降和安全事故。

这篇工作的价值在于同时定义了问题、数据和修复环路。它提出 MisActBench 来标注真实轨迹中的 action-level alignment，并给出 DeAction 这种在执行前检测并通过结构化反馈迭代纠正动作的 guardrail 机制，把“偏行动作”从模糊现象变成可评测、可修复的运行时对象。

对仓库来说，这是一条非常实用的可复用安全模式：既能和 prompt injection、silent egress、permissioning、role confusion 这类工作互补，也能直接服务于 GUI agents、browser agents 和 enterprise automation agents 的运行时防护。它比单纯的 attack paper 更耐久。

边界在于，它目前仍主要锚定 computer-use agents，而不是所有 agent 形态；同时 guardrail 的泛化还需要更多异构系统验证。所以正式收录为 breakthrough 合理，但不宜再升。

链接

论文链接