理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-04-14
arXiv
2604.12232

收录解读

这篇论文把 LLM jailbreak 的攻击面从用户 prompt 扩展到 chat template。许多模型部署依赖模板把 system/user/assistant 内容拼成上下文,模板细节本身可能成为系统性漏洞。

TEMPLATEFUZZ 通过元素级 mutation、启发式搜索和主动学习 oracle 系统挖掘模板漏洞,并在多个开源模型上展示高 ASR。这比手工 prompt 越狱更像安全工程里的 fuzzing。

按本库标准,它值得收录,因为它提供了可复用 red-teaming 方法和新的安全边界模型:模板层也是需要测试和治理的接口。

局限是论文需要控制双用途风险;公开细节对防御有价值,但也可能降低攻击门槛。

链接