LLM2D

摘要

arXiv:2504.01444v2 安全声明类型: 替换-交叉融合摘要：将视觉和其他模态集成到大规模语言模型（LLMs）中的多模态大规模语言模型（MLLMs）显著增强了人工智能能力，但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性，我们提出了 PiCo，一种新型的囚徒破解框架，旨在逐步绕过高级 MLLMs 的多层次防御机制。PiCo 采用逐层囚徒破解策略，使用字元级的排版攻击绕过输入过滤，将有害意图嵌入编程上下文指令中以绕过运行时监控。为了全面评估攻击的影响，我们提出了一个新的评估指标，以评估攻击后模型输出的毒性和帮助性。通过将有害意图嵌入代码风格的视觉指令中，PiCo 在 Gemini-Pro Vision 上获得了 84.13% 的平均攻击成功率，在 GPT-4 上获得了 52.66% 的成绩，超过了先前的方法。实验结果突显了当前防御措施中的关键空白，强调了需要更 robust 的策略来确保高级 MLLMs 的安全性。