摘要
arXiv:2504.01444v1 安全类型: 交叉
摘要: 多模态大型语言模型(MLLMs),通过将视觉和其他模态整合到大型语言模型(LLMs)中,显著增强了人工智能的能力,但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性,我们介绍了PiCo,这是一种新型的逃逸框架,旨在逐步绕过先进的MLLMs中的多层次防御机制。PiCo采用逐层逃逸策略,使用标记级别的图文攻击来规避输入过滤,并在编程上下文指令中嵌入有害意图以绕过运行时监控。为了全面评估攻击的影响,我们进一步提出了一种新的评估指标,以评估攻击后模型输出的毒性和有用性。通过在代码风格的视觉指令中嵌入有害意图,PiCo在Gemini-Pro Vision中实现了84.13%的平均攻击成功率,在GPT-4中实现了52.66%的攻击成功率,超过了以前的方法。实验结果突显了当前防御中的关键差距,强调了需要更 robust 的策略来保护先进的MLLMs。