LLM2D
PBI-攻击:先验引导的双模交互黑盒脱狱攻击以最大化毒性
PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization
作者: Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Ranjie Duan, Xiaoshuang Jia, Shaowei Yuan, Zhiqiang Wang, Xiaojun Jia
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2412.05892v3

摘要

arXiv:2412.05892v3 安全通报类型: 交叉替换 摘要:了解大型视觉语言模型(LVLMs)对牢笼攻击的脆弱性对于其负责任的现实世界部署至关重要。大多数先前的工作需要访问模型梯度,或者依赖人类知识(提示工程)来完成牢笼攻击,它们几乎不考虑图像与文本的交互,因此在黑盒场景中无法实现攻击或性能较差。为了克服这些局限性,我们提出了一种用于毒性最大化的一贯指导双边交互黑盒牢笼攻击,称为 PBI-攻击。我们的方法首先使用替代 LVLM 从有害语料库中提取恶意特征,并将这些特征嵌入到良性图像中作为先验信息。随后,我们通过双向跨模态交互优化增强这些特征,通过贪婪搜索交替优化二模态扰动,旨在最大化生成响应的毒性水平。毒性水平使用训练良好的评估模型进行量化。实验表明,PBI-攻击在三种开源 LVLM 上的平均攻击成功率超过 92.5%,在三种封闭源 LVLM 上的攻击成功率约为 67.3%。免责声明:本文可能包含令人不安和冒犯性的内容。