LLM2D

摘要

我们提出了一种新型的对抗攻击家族，利用了语言模型无法解释 ASCII 艺术的缺陷。为了评估这些攻击，我们提出了 ToxASCII 基准测试，并开发了两种定制的 ASCII 艺术字体：一种利用特殊标记，另一种使用文字填充的字母形状。我们的攻击在十个模型中实现了完美的 1.0 攻击成功率，包括 OpenAI 的 o1-preview 和 LLaMA 3.1。警告：本文包含出于研究目的而使用的有毒语言示例。