LLM2D

摘要

arXiv:2409.14729v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）因其生成类人文本的强大能力而在各种应用中得到了广泛应用。然而，提示注入攻击，即通过使用恶意提示来覆盖模型的原始指令以操控生成的文本，引发了对LLMs的安全性和可靠性的严重关切。确保LLMs在面对此类攻击时具有鲁棒性，对于在实际应用中部署这些模型，在关键任务中尤为重要。在本文中，我们提出了PROMPTFUZZ，这是一种利用 fuzzing 技术的新颖测试框架，用于系统地评估LLMs在面对提示注入攻击时的鲁棒性。受软件 fuzzing 的启发，PROMPTFUZZ 选择有希望的种子提示，并生成一组多样的提示注入来评估目标LLM的韧性。PROMPTFUZZ 分为两个阶段：预备阶段，涉及选择有希望的初始种子并收集少数示例；以及聚焦阶段，使用收集到的示例生成多样且高质量的提示注入。利用PROMPTFUZZ，我们可以发现LLMs中的更多漏洞，即使是那些具有强大防御提示的模型也不例外。通过在真实世界竞赛中部署PROMPTFUZZ生成的攻击提示，我们仅用2小时就获得了超过4000名参赛者（前0.14%）中的第7名排名。此外，我们构建了一个数据集，以进一步调优LLMs，以增强其在面对提示注入攻击时的鲁棒性。虽然调优后的模型展示了更好的鲁棒性，但PROMPTFUZZ仍能识别出漏洞，突显了对LLMs进行稳健测试的重要性。我们的工作强调了有效测试工具的紧迫需求，并提供了一个实用框架，用于评估和提高LLMs在面对提示注入攻击时的鲁棒性。