LLM2D

摘要

arXiv:2502.05772v1 安全类型: 横向摘要：视觉大型语言模型（VLLMs）整合了视觉数据处理，扩展了其现实世界的应用，但也增加了生成不安全响应的风险。为应对这一问题，领先公司已实施多层次的安全防御，包括校准训练、安全系统提示和内容审查。然而，它们对复杂对手攻击的有效性尚未得到充分探索。在本文中，我们提出了一种新的攻击框架——Multifaceted Attack，旨在系统地绕过VLLMs中的多层次防御。该框架包括三个互补的攻击面：视觉攻击，通过利用VLLMs的多模态性质，在图像中注入有毒系统提示；对齐破坏攻击，操纵模型的对齐机制，使其优先生成对立的响应；以及对抗签名，通过在响应末尾放置误导性信息欺骗内容审查员。在黑盒设置下，对八个商用VLLMs的广泛评估表明，Multifaceted Attack 的攻击成功率达到了61.56%，比最先进的方法高出至少42.18%。