LLM2D
越过文字:利用ASCII艺术攻击大型语言模型和毒性检测系统以掩盖亵渎语言
Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity
作者: Sergey Berezin, Reza Farahbakhsh, Noel Crespi
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18708v1

摘要

我们提出了一种新型的对抗攻击方法,该方法利用了语言模型无法解释 ASCII 艺术的缺陷。为了评估这些攻击,我们提出了 ToxASCII 基准测试,并开发了两种自定义 ASCII 艺术字体:一种利用特殊标记,另一种利用文本填充的字母形状。我们的攻击在十个模型中实现了完美的 1.0 攻击成功率,包括 OpenAI 的 o1-preview 和 LLaMA 3.1。 警告:本文包含出于研究目的而使用的有毒语言示例。