LLM2D

摘要

随着多模态大型语言模型（MLLMs）的快速发展，确保这些模型免受恶意输入的攻击，同时使其与人类价值观保持一致，已成为一项关键挑战。本文研究了一个重要且未被探索的问题：成功越狱大型语言模型（LLMs）的技术是否同样能够有效越狱MLLMs。为了探索这个问题，我们引入了JailBreakV-28K，这是一个开创性的基准测试，旨在评估LLM越狱技术向MLLMs的迁移能力，从而评估MLLMs对各种越狱攻击的鲁棒性。利用本文提出的包含2000个恶意查询的数据集，我们使用先进的LLM越狱攻击生成了20000个基于文本的越狱提示，以及来自最近MLLMs越狱攻击的8000个基于图像的越狱输入，我们全面的数据集包含28000个涵盖各种对抗场景的测试用例。我们对10个开源MLLMs的评估显示，从LLMs迁移过来的攻击的攻击成功率（ASR）非常高，这突出了MLLMs的一个关键漏洞，该漏洞源于其文本处理能力。我们的研究结果强调了未来研究迫切需要解决MLLMs在文本和视觉输入方面的对齐漏洞。