LLM2D
角色错位,图像误放:结构性输入扰动揭示多模态对齐盲区
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots
作者: Erfan Shayegani, G M Shahariar, Sara Abdali, Lei Yu, Nael Abu-Ghazaleh, Yue Dong
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03735v1

摘要

arXiv:2504.03735v1 宣传类型:交叉 摘要:多模态语言模型(MMLMs)通常在训练后进行对齐以防止生成有害内容。然而,这些对齐阶段主要关注助手的角色,从而使用户的角色未进行对齐,并坚持使用特殊标记的固定输入提示结构,当输入偏离这些期望时,使模型变得脆弱。我们提出了角色-模态攻击(RMA),这是一种新的对抗性攻击类别,利用用户和助手之间的角色混淆,并改变图像标记的位置以引发有害输出。与现有修改查询内容的攻击不同,RMA在不改变查询本身的情况下操纵输入结构。我们在多个视觉语言模型(VLMs)上系统地评估了这些攻击,共八个不同的设置,显示这些攻击可以被组合以生成更强的对抗性提示,这也从它们在残差流中朝否定拒绝方向的增加投影中得到验证,这是之前成功攻击中观察到的特性。最后,在缓解方面,我们提出了一个对抗性训练方法,使模型能够抵抗输入提示扰动。通过在有害和良性提示范围内进行训练,并使用不同的RMA设置对这些提示进行扰动,该模型对角色混淆和模态操纵攻击的敏感性降低,并被训练成只注意输入提示结构中的查询内容,从而有效地减少了攻击成功率(ASR),同时保留了模型的总体适用性。