TEMPLATEFUZZ: Fine-Grained Chat Template Fuzzing for Jailbreaking and Red Teaming LLMs

理论、鲁棒性与核心机器学习突破级暂无讲解视频

收录解读

这篇论文把 LLM jailbreak 的攻击面从用户 prompt 扩展到 chat template。许多模型部署依赖模板把 system/user/assistant 内容拼成上下文，模板细节本身可能成为系统性漏洞。

TEMPLATEFUZZ 通过元素级 mutation、启发式搜索和主动学习 oracle 系统挖掘模板漏洞，并在多个开源模型上展示高 ASR。这比手工 prompt 越狱更像安全工程里的 fuzzing。

按本库标准，它值得收录，因为它提供了可复用 red-teaming 方法和新的安全边界模型：模板层也是需要测试和治理的接口。

局限是论文需要控制双用途风险；公开细节对防御有价值，但也可能降低攻击门槛。