LLM2D

摘要

arXiv:2504.01444v1 安全类型: 交叉摘要: 多模态大型语言模型（MLLMs），通过将视觉和其他模态整合到大型语言模型（LLMs）中，显著增强了人工智能的能力，但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性，我们介绍了PiCo，这是一种新型的逃逸框架，旨在逐步绕过先进的MLLMs中的多层次防御机制。PiCo采用逐层逃逸策略，使用标记级别的图文攻击来规避输入过滤，并在编程上下文指令中嵌入有害意图以绕过运行时监控。为了全面评估攻击的影响，我们进一步提出了一种新的评估指标，以评估攻击后模型输出的毒性和有用性。通过在代码风格的视觉指令中嵌入有害意图，PiCo在Gemini-Pro Vision中实现了84.13%的平均攻击成功率，在GPT-4中实现了52.66%的攻击成功率，超过了以前的方法。实验结果突显了当前防御中的关键差距，强调了需要更 robust 的策略来保护先进的MLLMs。