LLM2D

摘要

大型语言模型（LLM）在各种任务中展现出非凡的能力，但它们也面临潜在的安全风险，例如越狱攻击。越狱攻击利用漏洞绕过安全措施并生成有害输出。现有的越狱策略主要集中于最大化攻击成功率（ASR），经常忽略其他关键因素，包括越狱响应与查询的相关性以及隐蔽性水平。这种对单一目标的狭隘关注可能导致无效的攻击，这些攻击要么缺乏上下文相关性，要么很容易被识别。在这项工作中，我们介绍了BlackDAN，这是一个具有多目标优化的创新型黑盒攻击框架，旨在生成有效促进越狱的高质量提示，同时保持上下文相关性并最大限度地降低可检测性。BlackDAN 利用多目标进化算法（MOEA），特别是 NSGA-II 算法，来优化跨多个目标（包括 ASR、隐蔽性和语义相关性）的越狱。通过整合突变、交叉和帕累托支配等机制，BlackDAN 为生成越狱提供了一个透明且可解释的过程。此外，该框架允许根据用户偏好进行自定义，从而可以选择平衡有害性、相关性和其他因素的提示。实验结果表明，BlackDAN 的性能优于传统的单目标方法，在各种 LLM 和多模态 LLM 中实现了更高的成功率和改进的鲁棒性，同时确保越狱响应既相关又难以检测。