ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2025-09-30
arXiv: 2509.25843

收录解读

问题与背景：安全对齐模型会因简单语言变化暴露拒绝泛化缺陷，例如 harmful request 改成过去时后绕过拒绝。

方法与新意：ASGuard 先用 circuit analysis 定位与 targeted jailbreak 相关的 attention heads，再学习 channel-wise scaling vector 重新校准脆弱 head，并把该机制并入 preventative fine-tuning。

收录意义：这篇值得进入 safety/core ML，因为它不是 prompt patch，而是把 jailbreak 防御连接到可解释电路定位和激活缩放干预，提供了较可复用的 mechanistic guardrail 思路。

局限：方法针对 targeted linguistic jailbreak，防御覆盖面和对 adaptive attacker 的鲁棒性仍需扩展；因此按 breakthrough 收录。

链接

论文链接