LLM2D

摘要

我们引入了一种新型对抗攻击方法，该方法利用语言模型无法解释ASCII艺术的特点。为了评估这些攻击，我们提出了ToxASCII基准测试，并开发了两种定制的ASCII艺术字体：一种利用特殊标记，另一种使用文本填充的字母形状。我们的攻击在十个模型中实现了完美的1.0攻击成功率，其中包括OpenAI的o1-preview和LLaMA 3.1。警告：本文包含出于研究目的而使用的有害语言示例。