LLM2D
PiCo: 通过图示代码语境化解除限制多模态大语言模型
PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization
作者: Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01444v1

摘要

arXiv:2504.01444v1 安全类型: 交叉 摘要: 多模态大型语言模型(MLLMs),通过将视觉和其他模态整合到大型语言模型(LLMs)中,显著增强了人工智能的能力,但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性,我们介绍了PiCo,这是一种新型的逃逸框架,旨在逐步绕过先进的MLLMs中的多层次防御机制。PiCo采用逐层逃逸策略,使用标记级别的图文攻击来规避输入过滤,并在编程上下文指令中嵌入有害意图以绕过运行时监控。为了全面评估攻击的影响,我们进一步提出了一种新的评估指标,以评估攻击后模型输出的毒性和有用性。通过在代码风格的视觉指令中嵌入有害意图,PiCo在Gemini-Pro Vision中实现了84.13%的平均攻击成功率,在GPT-4中实现了52.66%的攻击成功率,超过了以前的方法。实验结果突显了当前防御中的关键差距,强调了需要更 robust 的策略来保护先进的MLLMs。