LLM2D
黑盒多目标方法BlackDAN:高效且语境化的规避大型语言模型
BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models
作者: Xinyuan Wang, Victor Shea-Jay Huang, Renmiao Chen, Hao Wang, Chengwei Pan, Lei Sha, Minlie Huang
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2410.09804v3

摘要

大型语言模型(LLM)在各种任务中展现出非凡的能力,但它们也面临潜在的安全风险,例如越狱攻击。越狱攻击利用漏洞绕过安全措施并生成有害输出。现有的越狱策略主要集中于最大化攻击成功率(ASR),经常忽略其他关键因素,包括越狱响应与查询的相关性以及隐蔽性水平。这种对单一目标的狭隘关注可能导致无效的攻击,这些攻击要么缺乏上下文相关性,要么很容易被识别。在这项工作中,我们介绍了BlackDAN,这是一个具有多目标优化的创新型黑盒攻击框架,旨在生成有效促进越狱的高质量提示,同时保持上下文相关性并最大限度地降低可检测性。BlackDAN 利用多目标进化算法(MOEA),特别是 NSGA-II 算法,来优化跨多个目标(包括 ASR、隐蔽性和语义相关性)的越狱。通过整合突变、交叉和帕累托支配等机制,BlackDAN 为生成越狱提供了一个透明且可解释的过程。此外,该框架允许根据用户偏好进行自定义,从而可以选择平衡有害性、相关性和其他因素的提示。实验结果表明,BlackDAN 的性能优于传统的单目标方法,在各种 LLM 和多模态 LLM 中实现了更高的成功率和改进的鲁棒性,同时确保越狱响应既相关又难以检测。