LLM2D

摘要

arXiv:2412.05892v3 安全通报类型: 交叉替换摘要：了解大型视觉语言模型（LVLMs）对牢笼攻击的脆弱性对于其负责任的现实世界部署至关重要。大多数先前的工作需要访问模型梯度，或者依赖人类知识（提示工程）来完成牢笼攻击，它们几乎不考虑图像与文本的交互，因此在黑盒场景中无法实现攻击或性能较差。为了克服这些局限性，我们提出了一种用于毒性最大化的一贯指导双边交互黑盒牢笼攻击，称为 PBI-攻击。我们的方法首先使用替代 LVLM 从有害语料库中提取恶意特征，并将这些特征嵌入到良性图像中作为先验信息。随后，我们通过双向跨模态交互优化增强这些特征，通过贪婪搜索交替优化二模态扰动，旨在最大化生成响应的毒性水平。毒性水平使用训练良好的评估模型进行量化。实验表明，PBI-攻击在三种开源 LVLM 上的平均攻击成功率超过 92.5%，在三种封闭源 LVLM 上的攻击成功率约为 67.3%。免责声明：本文可能包含令人不安和冒犯性的内容。