LLM2D
JailBreakV:评估多模态大型语言模型对抗越狱攻击鲁棒性的基准测试
JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
作者: Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2404.03027v4

摘要

随着多模态大型语言模型(MLLMs)的快速发展,确保这些模型免受恶意输入的攻击,同时使其与人类价值观保持一致,已成为一项关键挑战。本文研究了一个重要且未被探索的问题:成功越狱大型语言模型(LLMs)的技术是否同样能够有效越狱MLLMs。为了探索这个问题,我们引入了JailBreakV-28K,这是一个开创性的基准测试,旨在评估LLM越狱技术向MLLMs的迁移能力,从而评估MLLMs对各种越狱攻击的鲁棒性。利用本文提出的包含2000个恶意查询的数据集,我们使用先进的LLM越狱攻击生成了20000个基于文本的越狱提示,以及来自最近MLLMs越狱攻击的8000个基于图像的越狱输入,我们全面的数据集包含28000个涵盖各种对抗场景的测试用例。我们对10个开源MLLMs的评估显示,从LLMs迁移过来的攻击的攻击成功率(ASR)非常高,这突出了MLLMs的一个关键漏洞,该漏洞源于其文本处理能力。我们的研究结果强调了未来研究迫切需要解决MLLMs在文本和视觉输入方面的对齐漏洞。