LLM2D
Home
Arxiv
返回列表
越过文字的界限:利用ASCII艺术掩盖亵渎性语言来攻击大型语言模型和毒性检测系统
Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity
作者:
Sergey Berezin, Reza Farahbakhsh, Noel Crespi
发布日期:
10/10/2024
arXiv ID:
oai:arXiv.org:2409.18708v4
摘要
我们引入了一种新型对抗攻击方法,该方法利用语言模型无法解释ASCII艺术的特点。为了评估这些攻击,我们提出了ToxASCII基准测试,并开发了两种定制的ASCII艺术字体:一种利用特殊标记,另一种使用文本填充的字母形状。我们的攻击在十个模型中实现了完美的1.0攻击成功率,其中包括OpenAI的o1-preview和LLaMA 3.1。 警告:本文包含出于研究目的而使用的有害语言示例。
查看原文
下载 PDF