LLM2D
“_do_as_I_say_not_as_I_do”: 针对多模态LLM的一种半自动化 Jailbreak 指令攻击方法
`Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs
作者: Chun Wai Chiu, Linghan Huang, Bo Li, Huaming Chen
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.00735v2

摘要

arXiv:2502.00735v2 宣布类型: 交叉替换 摘要:大规模语言模型(LLMs)因其处理各种类型输入数据(包括文本、音频、图像和视频)的能力不断增强,在各个领域得到了广泛的应用。尽管LLMs在理解和生成不同场景下内容方面表现出色,但它们对基于提示的攻击特别脆弱,这些攻击主要通过文本输入进行。在本文中,我们介绍了针对多模态LLMs的第一种基于语音的解除限制攻击,称为旁敲警.keyword攻击,它可以同时处理不同类型输入以应对多模态LLMs。我们的工作灵感来源于近年来单语言语音驱动的大规模语言模型的进展,这些模型为LLMs引入了新的攻击面,超出了传统的基于文本的漏洞。为了调查这些风险,我们研究了最先进的多模态LLMs,这些LLMs可以通过不同类型的输入(如音频输入)访问,重点关注敌对提示如何绕过其防御机制。我们提出了一种新颖的策略,在该策略中,受限提示被良性、叙述驱动的提示所包围。该策略集成在旁敲警.keyword攻击中,旨在通过虚构的情境使人际交互背景人性化,并执行攻击。此外,为更好地评估攻击性能,我们提出了一个半自动的自我评估框架,用于检测政策违规。我们证明旁敲警.keyword攻击能够操纵最先进的LLMs生成偏离目标和禁止的输出,在七个禁止场景中实现了从0.67到0.93的平均攻击成功率。