Large reasoning models are autonomous jailbreak agents

智能体与自主科学突破级有讲解视频

收录解读

这篇论文不是提出一个新的 agent，而是重新定义了 reasoning model 在安全场景中的风险位置：它们不再只是被攻击的对象，而可能本身就成为自动化 jailbreak agent。对仓库来说，这属于 agent evaluation 与安全威胁模型重构类条目。

作者让多个大推理模型在没有进一步人工监督的前提下，通过系统提示自主规划并执行多轮 jailbreak，对多个目标模型展开攻击。结果显示极高的成功率，说明一旦模型具备较强的规划和说服能力，安全问题就从“单轮 prompt bypass”升级成“可扩展的自主对抗系统”。

它的重要性在于改变了 agent safety 和 frontier model evaluation 的基本视角。很多现有对齐和安全评估默认把攻击者设定成人类，而这篇工作表明 reasoning model 自身就可以成为攻击编排器，这对安全 benchmark 和部署边界都有直接影响。

它没有升到更高等级，是因为贡献更偏强威胁揭示和评估重构，而不是给出一个同样强的解决框架；它会成为重要参考，但还不构成更完整的方法学蓝图。