智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-02-09
arXiv
2602.08995

收录解读

computer-use agents 的一类核心失败不是传统意义上的 jailbreak,而是 action 与用户真实意图逐步偏离。这样的 misaligned actions 既可能来自外部注入,也可能来自内部 reasoning 错误,最终直接造成错误操作、效率下降和安全事故。

这篇工作的价值在于同时定义了问题、数据和修复环路。它提出 MisActBench 来标注真实轨迹中的 action-level alignment,并给出 DeAction 这种在执行前检测并通过结构化反馈迭代纠正动作的 guardrail 机制,把“偏行动作”从模糊现象变成可评测、可修复的运行时对象。

对仓库来说,这是一条非常实用的可复用安全模式:既能和 prompt injection、silent egress、permissioning、role confusion 这类工作互补,也能直接服务于 GUI agents、browser agents 和 enterprise automation agents 的运行时防护。它比单纯的 attack paper 更耐久。

边界在于,它目前仍主要锚定 computer-use agents,而不是所有 agent 形态;同时 guardrail 的泛化还需要更多异构系统验证。所以正式收录为 breakthrough 合理,但不宜再升。

链接