摘要
arXiv:2412.03235v2 安全公告类型: 替换交叉
摘要:大规模语言模型(LLMs)已知容易受到精心设计的对抗性攻击或“监禁攻击”,这些攻击会导致在使用安全性微调方法对齐于人类偏好后仍生成令人厌恶的内容。虽然输入令牌空间的高维性使得不可避免地找到能够“监禁”这些模型的对抗提示,但我们旨在评估经过安全性微调的LLMs是否对自然提示安全,这些自然提示与可能在对齐后产生安全响应的有毒种子提示在语义上相关。我们惊讶地发现,即使是像GPT-4这样的经对齐的流行LLM,也可以通过并非特意用于“监禁”模型的简单提示被妥协。此外,我们实证展示了,给定一个会产生有毒响应的未对齐模型的种子提示,可以系统地生成多个与该种子提示语义相关的自然提示,这些提示能够“监禁”对齐的LLM。为此,我们提出了一种响应引导问题扩充方法(ReG-QA),用于评估安全性对齐的LLMs对自然提示的泛化能力,该方法首先使用未对齐的LLM(Q到A)生成多个有毒答案,然后利用LLM生成可能会产生这些答案的问题(A到Q)。我们意外地发现,即使是在不否认的情况下,安全性微调的LLM如GPT-4o也容易从不安全的内容生成自然的“监禁”问题,因此可以用于后者(A到Q)的步骤。我们在JailbreakBench排行榜上获得的攻击成功率与/优于领先的对抗性攻击方法,同时对Smooth-LLM和同义词替换等防御措施的稳定性要显著优于现有的所有排行榜上的攻击方法。