LLM2D

摘要

大型语言模型（LLMs）由于其生成类人文本的能力，已在各种应用中得到广泛使用。然而，提示注入攻击通过用恶意提示覆盖模型的原始指令来操纵生成的文本，引发了关于LLMs安全性和可靠性的重大担忧。确保LLMs对这类攻击具有鲁棒性对于其在现实世界应用中的部署至关重要，尤其是在关键任务中。本文提出PROMPTFUZZ，一种利用模糊测试技术系统评估LLMs对提示注入攻击鲁棒性的新型测试框架。受软件模糊测试启发，PROMPTFUZZ选择有前景的种子提示并生成多样化的提示注入，以评估目标LLM的抗攻击能力。PROMPTFUZZ分为两个阶段：准备阶段，涉及选择有前景的初始种子和收集少样本示例；聚焦阶段，利用收集的示例生成多样化、高质量的提示注入。使用PROMPTFUZZ，我们能够发现更多LLMs中的漏洞，即使是那些具有强防御提示的模型。通过在实际竞赛中部署PROMPTFUZZ生成的攻击提示，我们在2小时内从超过4000名参与者中获得第7名（前0.14%）。此外，我们构建了一个数据集，用于微调LLMs以增强对提示注入攻击的鲁棒性。尽管微调模型显示出增强的鲁棒性，PROMPTFUZZ仍能识别漏洞，突显了LLMs鲁棒测试的重要性。我们的工作强调了有效测试工具的关键需求，并提供了一个实用的框架，用于评估和提升LLMs对提示注入攻击的鲁棒性。