LLM2D

摘要

arXiv:2504.01094v1 交叉公告类型摘要：大型音频语言模型（LALMs）显著提升了音频理解能力，但同时也引入了关键的安全风险，特别是在音频逃逸攻击方面。尽管先前的研究主要集中在英语攻击，但我们揭示了更为严重的漏洞：对抗性的多语言和多口音音频逃逸攻击，其中语言和声学变异极大地提高了攻击的成功率。在本文中，我们介绍了Multi-AudioJail，这是一个用于利用这些漏洞的新颖系统框架，具体包括：(1) 一个包含对抗性扰动多语言/多口音音频逃逸攻击提示的新型数据集，以及(2) 一个多级评估管道，揭示了声学扰动（如回声、回声效果和耳语效果）如何与跨语言的音素交互作用，导致逃逸成功率（JSRs）最高可提升57.25个百分点（例如，对MERaLiON的肯尼亚口音攻击）。至关重要的是，我们的研究还揭示了多模态LLMs比单一模态系统更脆弱：攻击者只需利用最薄弱的环节（如非英语音频输入）就能破坏整个模型。我们通过多语言音频攻击的成功率比文本攻击高出3.1倍的实验证明了这一点。我们计划发布我们的数据集，以推动跨模态防御的研究，并敦促社区在LALMs演进时解决这一不断扩大的攻击面。