摘要
arXiv:2403.02910v3 安全公告类型: 替换-交叉
摘要:对大型语言模型(LLMs)与人类价值观的对齐研究越来越受到关注。然而,它们与视觉模块或视觉语言模型(VLMs)的集成安全性问题仍相对较少被探索。在本文中,我们提出了一种针对VLMs的新颖脱模攻击,旨在当用户输入有害指令时,绕过其安全屏障。假设包含受污染的(图像,文本)数据对的训练数据。通过用恶意脱模提示替换原始文本说明,我们的方法可以对受污染的图像执行脱模攻击。此外,我们分析了受污染数据比例和可训练参数位置对攻击成功率的影响。为了评估,我们设计了两个度量标准来量化攻击的成功率和隐秘性。同时提供了一份有害指令列表,并提供了一个衡量攻击效果的基准。通过与基线方法的比较,展示了我们攻击的有效性。