LLM2D

摘要

arXiv:2504.18564v1 安全类型: cross 摘要: 最近的研究集中在探索大型语言模型（LLMs）的漏洞上，旨在从LLMs中引出有害或敏感的内容。然而，由于对双重突破——同时针对LLMs和防护措施的攻击的研究不足，现有的攻击在试图绕过由防护措施保护的安全对齐的LLMs时效果有限。因此，在本文中，我们提出了DualBreach，这是一种目标导向的双重突破框架。DualBreach采用目标导向初始化（TDI）策略动态构建初始提示，并结合了多目标优化（MTO）方法，利用近似梯度在防护措施和LLMs之间同时适应提示，从而同时节省查询次数并实现高双重突破成功率。对于黑盒防护措施，DualBreach要么使用一个强大的开源防护措施，要么通过训练代理模型模仿目标黑盒防护措施，以将防护措施纳入MTO过程中。我们通过在多个常用的数据集上进行广泛的评估展示了DualBreach在双重突破场景中的有效性。实验结果表明，DualBreach在更少的查询次数下优于最先进的方法，并在所有设置中实现显著更高的成功率。具体而言，DualBreach在使用Llama-Guard-3保护的GPT-4上实现了平均93.67%的双重突破成功率，而其他方法的最佳成功率为88.33%。此外，DualBreach每次成功的双重突破仅使用平均1.77次查询，优于其他最先进的方法。为了防御目的，我们提出了一种基于XGBoost的集成防御机制，称为EGuard，它整合了多个防护措施的优点，并在性能上优于Llama-Guard-3。