摘要
arXiv:2504.01444v2 安全声明类型: 替换-交叉融合
摘要:将视觉和其他模态集成到大规模语言模型(LLMs)中的多模态大规模语言模型(MLLMs)显著增强了人工智能能力,但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性,我们提出了 PiCo,一种新型的囚徒破解框架,旨在逐步绕过高级 MLLMs 的多层次防御机制。PiCo 采用逐层囚徒破解策略,使用字元级的排版攻击绕过输入过滤,将有害意图嵌入编程上下文指令中以绕过运行时监控。为了全面评估攻击的影响,我们提出了一个新的评估指标,以评估攻击后模型输出的毒性和帮助性。通过将有害意图嵌入代码风格的视觉指令中,PiCo 在 Gemini-Pro Vision 上获得了 84.13% 的平均攻击成功率,在 GPT-4 上获得了 52.66% 的成绩,超过了先前的方法。实验结果突显了当前防御措施中的关键空白,强调了需要更 robust 的策略来确保高级 MLLMs 的安全性。