摘要
arXiv:2504.01094v1 交叉公告类型
摘要:大型音频语言模型(LALMs)显著提升了音频理解能力,但同时也引入了关键的安全风险,特别是在音频逃逸攻击方面。尽管先前的研究主要集中在英语攻击,但我们揭示了更为严重的漏洞:对抗性的多语言和多口音音频逃逸攻击,其中语言和声学变异极大地提高了攻击的成功率。在本文中,我们介绍了Multi-AudioJail,这是一个用于利用这些漏洞的新颖系统框架,具体包括:(1) 一个包含对抗性扰动多语言/多口音音频逃逸攻击提示的新型数据集,以及(2) 一个多级评估管道,揭示了声学扰动(如回声、回声效果和耳语效果)如何与跨语言的音素交互作用,导致逃逸成功率(JSRs)最高可提升57.25个百分点(例如,对MERaLiON的肯尼亚口音攻击)。至关重要的是,我们的研究还揭示了多模态LLMs比单一模态系统更脆弱:攻击者只需利用最薄弱的环节(如非英语音频输入)就能破坏整个模型。我们通过多语言音频攻击的成功率比文本攻击高出3.1倍的实验证明了这一点。我们计划发布我们的数据集,以推动跨模态防御的研究,并敦促社区在LALMs演进时解决这一不断扩大的攻击面。