LLM2D

摘要

arXiv:2403.02910v3 安全公告类型: 替换-交叉摘要：对大型语言模型（LLMs）与人类价值观的对齐研究越来越受到关注。然而，它们与视觉模块或视觉语言模型（VLMs）的集成安全性问题仍相对较少被探索。在本文中，我们提出了一种针对VLMs的新颖脱模攻击，旨在当用户输入有害指令时，绕过其安全屏障。假设包含受污染的（图像，文本）数据对的训练数据。通过用恶意脱模提示替换原始文本说明，我们的方法可以对受污染的图像执行脱模攻击。此外，我们分析了受污染数据比例和可训练参数位置对攻击成功率的影响。为了评估，我们设计了两个度量标准来量化攻击的成功率和隐秘性。同时提供了一份有害指令列表，并提供了一个衡量攻击效果的基准。通过与基线方法的比较，展示了我们攻击的有效性。