理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
这篇论文把 LLM jailbreak 的攻击面从用户 prompt 扩展到 chat template。许多模型部署依赖模板把 system/user/assistant 内容拼成上下文,模板细节本身可能成为系统性漏洞。
TEMPLATEFUZZ 通过元素级 mutation、启发式搜索和主动学习 oracle 系统挖掘模板漏洞,并在多个开源模型上展示高 ASR。这比手工 prompt 越狱更像安全工程里的 fuzzing。
按本库标准,它值得收录,因为它提供了可复用 red-teaming 方法和新的安全边界模型:模板层也是需要测试和治理的接口。
局限是论文需要控制双用途风险;公开细节对防御有价值,但也可能降低攻击门槛。