摘要
对抗性音频攻击对大型语言模型 (LLM) 在基于语音的人机交互中的日益广泛应用构成了重大威胁。虽然现有研究主要集中在特定模型的对抗性方法上,但实际应用需要一种更具泛化能力和普适性的音频对抗攻击方法。本文介绍了聊天音频攻击 (CAA) 基准,其中包括四种不同类型的音频攻击,旨在探索 LLM 在对话场景中对这些音频攻击的漏洞。为了评估 LLM 的鲁棒性,我们提出了三种评估策略:标准评估,利用传统指标量化模型在攻击下的性能;基于 GPT-4o 的评估,模拟现实世界对话的复杂性;以及人工评估,提供对用户感知和信任的见解。我们使用三种不同的评估方法对 CAA 基准上的六个具有语音交互能力的最新 LLM(包括 Gemini-1.5-Pro、GPT-4o 等)进行了评估。我们的综合分析揭示了四种类型的音频攻击对这些模型性能的影响,表明 GPT-4o 表现出最高的弹性。