摘要
arXiv:2502.11379v1 安全公告类型: 交叉
摘要: 尽管对大型语言模型(LLMs)进行了显式的对齐努力,它们仍然可能被利用触发未预期的行为,这一现象称为“逃逸”。当前的逃逸攻击方法主要集中在针对闭源LLMs的离散提示操纵上,依赖于人工构建的提示模板和说服规则。然而,随着开源LLMs能力的提高,确保其安全性变得越来越重要。在这种环境中,潜在攻击者可以获得模型参数和梯度信息,从而加剧了逃逸威胁的严重性。为了解决这一研究空白,我们提出了一种新颖的 Context-Coherent Jailbreak Attack (CCJA)。我们将逃逸攻击定义为在掩码语言模型嵌入空间内的优化问题。通过组合优化,我们有效地平衡了逃逸攻击成功率与语义一致性之间的关系。广泛评估显示,我们的方法不仅保持了语义一致性,还在攻击效果上超越了最新的基线方法。此外,通过将我们方法生成的语义一致性逃逸提示整合到广泛使用的黑盒方法中,我们观察到在针对闭源商业LLMs时其成功率显著提高。这突显了开源LLMs对商业同类的安全威胁。如果论文被接受,我们将开源我们的代码。