LLM2D
Atoxia: 用目标毒化回答进行大型语言模型的反向渗透测试
Atoxia: Red-teaming Large Language Models with Target Toxic Answers
作者: Yuhao Du, Zhuo Li, Pengyu Cheng, Xiang Wan, Anningzhe Gao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2408.14853v2

摘要

arXiv:2408.14853v2 安全公告类型: 替换-交叉 摘要:尽管人工智能取得了显著进展,但大型语言模型(LLMs)在生成安全性方面仍然面临挑战。通过对抗性监狱破解提示,人们可以轻松诱导LLMs产生有害内容,从而导致意外的负面社会影响。这种漏洞突显了在大规模应用之前需要采取稳健的LLM红队策略来识别和缓解此类风险的重要性。为了检测特定类型的威胁,我们提出了一种新的红队方法,名为Atoxia,其攻击目标是有毒答案($\textbf{A}$ttacks LLMs with $\textbf{T}$arget $\textbf{Toxi}$c $\textbf{A}$nswers)。给定一个特定的有害回答,Atoxia会生成相应的用户查询和误导性回答,以检查给定LLM的内部缺陷。提出的方法在强化学习方案中进行训练,奖励是LLM输出的目标答案的概率。我们在AdvBench和HH-Harmless等各种红队基准测试上验证了该方法的有效性。实验证明,Atoxia不仅可以检测开源模型中的安全性风险,还可以检测如GPT-4o等最先进的黑盒模型中的安全性风险。