摘要
arXiv:2502.05772v1 安全类型: 横向
摘要:视觉大型语言模型(VLLMs)整合了视觉数据处理,扩展了其现实世界的应用,但也增加了生成不安全响应的风险。为应对这一问题,领先公司已实施多层次的安全防御,包括校准训练、安全系统提示和内容审查。然而,它们对复杂对手攻击的有效性尚未得到充分探索。在本文中,我们提出了一种新的攻击框架——Multifaceted Attack,旨在系统地绕过VLLMs中的多层次防御。该框架包括三个互补的攻击面:视觉攻击,通过利用VLLMs的多模态性质,在图像中注入有毒系统提示;对齐破坏攻击,操纵模型的对齐机制,使其优先生成对立的响应;以及对抗签名,通过在响应末尾放置误导性信息欺骗内容审查员。在黑盒设置下,对八个商用VLLMs的广泛评估表明,Multifaceted Attack 的攻击成功率达到了61.56%,比最先进的方法高出至少42.18%。