摘要
arXiv:2504.18564v1 安全类型: cross
摘要: 最近的研究集中在探索大型语言模型(LLMs)的漏洞上,旨在从LLMs中引出有害或敏感的内容。然而,由于对双重突破——同时针对LLMs和防护措施的攻击的研究不足,现有的攻击在试图绕过由防护措施保护的安全对齐的LLMs时效果有限。因此,在本文中,我们提出了DualBreach,这是一种目标导向的双重突破框架。DualBreach采用目标导向初始化(TDI)策略动态构建初始提示,并结合了多目标优化(MTO)方法,利用近似梯度在防护措施和LLMs之间同时适应提示,从而同时节省查询次数并实现高双重突破成功率。对于黑盒防护措施,DualBreach要么使用一个强大的开源防护措施,要么通过训练代理模型模仿目标黑盒防护措施,以将防护措施纳入MTO过程中。
我们通过在多个常用的数据集上进行广泛的评估展示了DualBreach在双重突破场景中的有效性。实验结果表明,DualBreach在更少的查询次数下优于最先进的方法,并在所有设置中实现显著更高的成功率。具体而言,DualBreach在使用Llama-Guard-3保护的GPT-4上实现了平均93.67%的双重突破成功率,而其他方法的最佳成功率为88.33%。此外,DualBreach每次成功的双重突破仅使用平均1.77次查询,优于其他最先进的方法。为了防御目的,我们提出了一种基于XGBoost的集成防御机制,称为EGuard,它整合了多个防护措施的优点,并在性能上优于Llama-Guard-3。