Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-25
arXiv: 2603.24511

收录解读

autoresearch 现在最有价值的地方，不在于能不能帮人写一篇研究报告，而在于它是否能在一个有强反馈信号的具体研究问题上持续迭代并超过人工手工搜索。Claudini 选择了一个很合适的目标：白盒 adversarial attack algorithm discovery。这个问题既有现成实现可以作为起点，也有明确可量化的攻击成功率作为密集反馈，因此很适合检验 agent-based autoresearch 的真实上限。

论文展示的是一个以 Claude Code 为核心的 autoresearch pipeline，能够在现有攻击实现的基础上持续迭代并产生新的 jailbreaking 和 prompt injection attack algorithms，而且在多个模型和评测设定上显著超过三十多种现有方法。这里真正重要的不是某一个攻击技巧本身，而是论文给出的证据：在安全研究这种高度 incremental、反馈密集的子领域，LLM agent 已经可以承担从实现、实验到算法改进的闭环发现工作。

这篇工作值得正式收录，因为它把 autoresearch 从一般性口号推进到了一个高价值安全研究场景，并且给出清晰的外部目标函数与可复现实验基线。对 agent-driven security research、automated red teaming 和自动化研究 workflow 都有明确外溢，也补强了仓库刚扩展的 LLM safety / agent safety 方向。

它目前仍是 breakthrough，而不是更高一级，因为它集中验证的是攻击算法发现这一个研究子域，且依赖一个很适合自动化优化的反馈结构。它证明了 autoresearch 在安全研究中已经可行且强大，但还没有证明这会广泛迁移到更开放、更稀疏反馈的研究问题。

解读视频

B 站 YouTube

链接

论文链接