LLM2D

摘要

arXiv:2408.14853v2 安全公告类型: 替换-交叉摘要：尽管人工智能取得了显著进展，但大型语言模型（LLMs）在生成安全性方面仍然面临挑战。通过对抗性监狱破解提示，人们可以轻松诱导LLMs产生有害内容，从而导致意外的负面社会影响。这种漏洞突显了在大规模应用之前需要采取稳健的LLM红队策略来识别和缓解此类风险的重要性。为了检测特定类型的威胁，我们提出了一种新的红队方法，名为Atoxia，其攻击目标是有毒答案（$\textbf{A}$ttacks LLMs with $\textbf{T}$arget $\textbf{Toxi}$c $\textbf{A}$nswers）。给定一个特定的有害回答，Atoxia会生成相应的用户查询和误导性回答，以检查给定LLM的内部缺陷。提出的方法在强化学习方案中进行训练，奖励是LLM输出的目标答案的概率。我们在AdvBench和HH-Harmless等各种红队基准测试上验证了该方法的有效性。实验证明，Atoxia不仅可以检测开源模型中的安全性风险，还可以检测如GPT-4o等最先进的黑盒模型中的安全性风险。