LLM2D

摘要

arXiv:2502.00735v1 交叉公告类型摘要：由于大型语言模型（LLMs）的能力不断增强，能够处理包括文本、音频、图像和视频在内的各种类型输入数据，LLMs在各个领域得到了广泛应用。尽管LLMs在理解和生成不同场景下的上下文方面表现出色，但它们在基于提示的攻击中容易受到攻击，这些攻击主要通过文本输入实现。本文中，我们介绍了针对多模态LLMs的第一个基于语音的破坏攻击，称为包围攻击（Flanking Attack），该攻击可以同时处理不同类型的输入，面向多模态LLMs。我们的工作受到近期单语言语音驱动大型语言模型发展的激励，这些模型为LLMs引入了新的攻击面，超越了传统的基于文本的漏洞。为了调查这些风险，我们研究了前沿的多模态LLMs，这些LLMs可以通过不同类型的输入（如音频输入）访问，重点研究了恶意提示如何绕过其防御机制。我们提出了一种新颖的策略，在这种策略中，禁止的提示被良性、叙述驱动的提示包围。这种方法集成到了包围攻击中，试图使人化交互场景，并通过虚构的设定执行攻击。为了更好地评估攻击效果，我们提出了一种半自动化的自我评估框架，用于政策违规检测。我们证明，包围攻击能够操纵最先进的LLMs生成对齐不良和禁止的输出，在七个禁止场景中，攻击成功率的平均值范围从0.67到0.93。这些发现突显了语音启用环境中基于提示的混淆策略的威力，以及当前LLMs的监督保障措施的局限性，并强调了需要先进的防御策略来应对不断演变的、富有上下文的攻击所带来的挑战。