LLM2D

摘要

对抗性音频攻击对大型语言模型 (LLM) 在基于语音的人机交互中的日益广泛应用构成了重大威胁。虽然现有研究主要集中在特定模型的对抗性方法上，但实际应用需要一种更具泛化能力和普适性的音频对抗攻击方法。本文介绍了聊天音频攻击 (CAA) 基准，其中包括四种不同类型的音频攻击，旨在探索 LLM 在对话场景中对这些音频攻击的漏洞。为了评估 LLM 的鲁棒性，我们提出了三种评估策略：标准评估，利用传统指标量化模型在攻击下的性能；基于 GPT-4o 的评估，模拟现实世界对话的复杂性；以及人工评估，提供对用户感知和信任的见解。我们使用三种不同的评估方法对 CAA 基准上的六个具有语音交互能力的最新 LLM（包括 Gemini-1.5-Pro、GPT-4o 等）进行了评估。我们的综合分析揭示了四种类型的音频攻击对这些模型性能的影响，表明 GPT-4o 表现出最高的弹性。