LLM2D

摘要

arXiv:2504.03735v1 宣传类型：交叉摘要：多模态语言模型（MMLMs）通常在训练后进行对齐以防止生成有害内容。然而，这些对齐阶段主要关注助手的角色，从而使用户的角色未进行对齐，并坚持使用特殊标记的固定输入提示结构，当输入偏离这些期望时，使模型变得脆弱。我们提出了角色-模态攻击（RMA），这是一种新的对抗性攻击类别，利用用户和助手之间的角色混淆，并改变图像标记的位置以引发有害输出。与现有修改查询内容的攻击不同，RMA在不改变查询本身的情况下操纵输入结构。我们在多个视觉语言模型（VLMs）上系统地评估了这些攻击，共八个不同的设置，显示这些攻击可以被组合以生成更强的对抗性提示，这也从它们在残差流中朝否定拒绝方向的增加投影中得到验证，这是之前成功攻击中观察到的特性。最后，在缓解方面，我们提出了一个对抗性训练方法，使模型能够抵抗输入提示扰动。通过在有害和良性提示范围内进行训练，并使用不同的RMA设置对这些提示进行扰动，该模型对角色混淆和模态操纵攻击的敏感性降低，并被训练成只注意输入提示结构中的查询内容，从而有效地减少了攻击成功率（ASR），同时保留了模型的总体适用性。