LLM2D
ImgTrojan: 用一张图片突破视觉-语言模型
ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
作者: Xijia Tao, Shuai Zhong, Lei Li, Qi Liu, Lingpeng Kong
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2403.02910v3

摘要

arXiv:2403.02910v3 安全公告类型: 替换-交叉 摘要:对大型语言模型(LLMs)与人类价值观的对齐研究越来越受到关注。然而,它们与视觉模块或视觉语言模型(VLMs)的集成安全性问题仍相对较少被探索。在本文中,我们提出了一种针对VLMs的新颖脱模攻击,旨在当用户输入有害指令时,绕过其安全屏障。假设包含受污染的(图像,文本)数据对的训练数据。通过用恶意脱模提示替换原始文本说明,我们的方法可以对受污染的图像执行脱模攻击。此外,我们分析了受污染数据比例和可训练参数位置对攻击成功率的影响。为了评估,我们设计了两个度量标准来量化攻击的成功率和隐秘性。同时提供了一份有害指令列表,并提供了一个衡量攻击效果的基准。通过与基线方法的比较,展示了我们攻击的有效性。