LLM2D
PiCo: 通过图形代码上下文化打破多模态大型语言模型限制
PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization
作者: Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.01444v2

摘要

arXiv:2504.01444v2 安全声明类型: 替换-交叉融合 摘要:将视觉和其他模态集成到大规模语言模型(LLMs)中的多模态大规模语言模型(MLLMs)显著增强了人工智能能力,但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性,我们提出了 PiCo,一种新型的囚徒破解框架,旨在逐步绕过高级 MLLMs 的多层次防御机制。PiCo 采用逐层囚徒破解策略,使用字元级的排版攻击绕过输入过滤,将有害意图嵌入编程上下文指令中以绕过运行时监控。为了全面评估攻击的影响,我们提出了一个新的评估指标,以评估攻击后模型输出的毒性和帮助性。通过将有害意图嵌入代码风格的视觉指令中,PiCo 在 Gemini-Pro Vision 上获得了 84.13% 的平均攻击成功率,在 GPT-4 上获得了 52.66% 的成绩,超过了先前的方法。实验结果突显了当前防御措施中的关键空白,强调了需要更 robust 的策略来确保高级 MLLMs 的安全性。