摘要
arXiv:2409.14729v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)因其生成类人文本的强大能力而在各种应用中得到了广泛应用。然而,提示注入攻击,即通过使用恶意提示来覆盖模型的原始指令以操控生成的文本,引发了对LLMs的安全性和可靠性的严重关切。确保LLMs在面对此类攻击时具有鲁棒性,对于在实际应用中部署这些模型,在关键任务中尤为重要。
在本文中,我们提出了PROMPTFUZZ,这是一种利用 fuzzing 技术的新颖测试框架,用于系统地评估LLMs在面对提示注入攻击时的鲁棒性。受软件 fuzzing 的启发,PROMPTFUZZ 选择有希望的种子提示,并生成一组多样的提示注入来评估目标LLM的韧性。PROMPTFUZZ 分为两个阶段:预备阶段,涉及选择有希望的初始种子并收集少数示例;以及聚焦阶段,使用收集到的示例生成多样且高质量的提示注入。利用PROMPTFUZZ,我们可以发现LLMs中的更多漏洞,即使是那些具有强大防御提示的模型也不例外。
通过在真实世界竞赛中部署PROMPTFUZZ生成的攻击提示,我们仅用2小时就获得了超过4000名参赛者(前0.14%)中的第7名排名。此外,我们构建了一个数据集,以进一步调优LLMs,以增强其在面对提示注入攻击时的鲁棒性。虽然调优后的模型展示了更好的鲁棒性,但PROMPTFUZZ仍能识别出漏洞,突显了对LLMs进行稳健测试的重要性。我们的工作强调了有效测试工具的紧迫需求,并提供了一个实用框架,用于评估和提高LLMs在面对提示注入攻击时的鲁棒性。