LLM2D
从遵循到利用:面向多模态LLM的 Jailbreak 提示攻击
From Compliance to Exploitation: Jailbreak Prompt Attacks on Multimodal LLMs
作者: Chun Wai Chiu, Linghan Huang, Bo Li, Huaming Chen
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00735v1

摘要

arXiv:2502.00735v1 交叉公告类型 摘要:由于大型语言模型(LLMs)的能力不断增强,能够处理包括文本、音频、图像和视频在内的各种类型输入数据,LLMs在各个领域得到了广泛应用。尽管LLMs在理解和生成不同场景下的上下文方面表现出色,但它们在基于提示的攻击中容易受到攻击,这些攻击主要通过文本输入实现。本文中,我们介绍了针对多模态LLMs的第一个基于语音的破坏攻击,称为包围攻击(Flanking Attack),该攻击可以同时处理不同类型的输入,面向多模态LLMs。我们的工作受到近期单语言语音驱动大型语言模型发展的激励,这些模型为LLMs引入了新的攻击面,超越了传统的基于文本的漏洞。为了调查这些风险,我们研究了前沿的多模态LLMs,这些LLMs可以通过不同类型的输入(如音频输入)访问,重点研究了恶意提示如何绕过其防御机制。我们提出了一种新颖的策略,在这种策略中,禁止的提示被良性、叙述驱动的提示包围。这种方法集成到了包围攻击中,试图使人化交互场景,并通过虚构的设定执行攻击。为了更好地评估攻击效果,我们提出了一种半自动化的自我评估框架,用于政策违规检测。我们证明,包围攻击能够操纵最先进的LLMs生成对齐不良和禁止的输出,在七个禁止场景中,攻击成功率的平均值范围从0.67到0.93。这些发现突显了语音启用环境中基于提示的混淆策略的威力,以及当前LLMs的监督保障措施的局限性,并强调了需要先进的防御策略来应对不断演变的、富有上下文的攻击所带来的挑战。