摘要
arXiv:2502.09638v1 通知类型: 交叉
摘要: 对大型语言模型(LLMs)的拒绝训练可以防止有害输出,但这种防御措施仍然容易受到自动和人工构造的囚徒突破的影响。我们提出了一种新颖的LLM作为红队成员的方法,在这种方法中,人类会突破一个拒绝训练的LLM,使其愿意自我突破或其他LLM的突破。我们将突破后的LLM称为$J_2$攻击者,它们可以使用各种红队策略系统地评估目标模型,并通过从先前的失败中进行上下文学习来提高其性能。我们的实验表明,Sonnet 3.5和Gemini 1.5作为$J_2$表现出色,分别在Harmbench上对GPT-4o(及其他能力相当的LLM)的攻击成功率(ASR)达到了93.0%和91.0%。我们的工作不仅引入了一种可扩展的红队策略方法,借鉴了人类红队成员的做法,而且还强调了牢笼突破到自我突破是安全防护中的一个未被重视的失败模式。具体而言,一个LLM可以通过使用一个愿意进一步帮助突破的自身突破版本来绕过自身的安全防护。为了防止任何直接滥用$J_2$,同时推动AI安全研究的进步,我们公开分享了我们的方法论,但保留了具体的提示细节。