LLM2D

摘要

arXiv:2411.06426v2 宣布类型: replace-cross 摘要：随着大型语言模型（LLMs）在各种应用中的集成增加，它们受到滥用的可能性也在增加，这引发了重大安全问题。已经提出了许多“开小差”攻击来评估LLMs的安全防御能力。当前的“开小差”攻击主要依赖于场景伪装、提示混淆、提示优化和提示迭代优化来隐藏恶意提示。特别是，在单个查询中的顺序提示链可以使LLMs专注于某些提示而忽略其他提示，从而便于上下文操控。本文介绍了一种名为“SequentialBreak”的新“开小差”攻击，利用了这一漏洞。我们在问题库、对话完成和游戏环境等场景中讨论了有害提示嵌入在看似无害的提示中，使LLMs产生有害响应的情况。这些场景的不同叙事结构表明，“SequentialBreak”足够灵活，可以适应超出讨论范围的各种提示格式。广泛的实验表明，“SequentialBreak”仅使用单个查询即可显著提高攻击成功率，超越现有的基线模型，无论是开源模型还是封闭源模型。通过我们的研究，我们强调了对更强大和更具抵御性的保护措施的需求，以增强LLM的安全性并防止潜在的滥用。所有与此研究相关的结果文件和网站均可在以下GitHub仓库中访问：https://anonymous.4open.science/r/JailBreakAttack-4F3B/。