理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
问题与背景:安全对齐模型会因简单语言变化暴露拒绝泛化缺陷,例如 harmful request 改成过去时后绕过拒绝。
方法与新意:ASGuard 先用 circuit analysis 定位与 targeted jailbreak 相关的 attention heads,再学习 channel-wise scaling vector 重新校准脆弱 head,并把该机制并入 preventative fine-tuning。
收录意义:这篇值得进入 safety/core ML,因为它不是 prompt patch,而是把 jailbreak 防御连接到可解释电路定位和激活缩放干预,提供了较可复用的 mechanistic guardrail 思路。
局限:方法针对 targeted linguistic jailbreak,防御覆盖面和对 adaptive attacker 的鲁棒性仍需扩展;因此按 breakthrough 收录。