LLM2D

摘要

arXiv:2502.11054v3 通知类型: replace-cross 摘要：多回合监狱突破攻击通过让大型语言模型（LLMs）在迭代对话中参与，模拟现实生活中的互动，揭示了关键的安全漏洞。然而，现有的方法往往难以在语义连贯性和攻击有效性之间取得平衡，导致语义良性漂移或无效的检测规避。为了解决这一挑战，我们提出了一种新颖的多回合监狱突破框架——增强推理对话（Reasoning-Augmented Conversation, RACE），该框架将有害查询重新表述为良性推理任务，并利用LLMs的强大推理能力来破坏安全对齐。具体而言，我们引入了一种攻击状态机框架，系统地建模问题翻译和迭代推理，确保多次回合中查询生成的一致性。基于此框架，我们设计了收益导向探索、自我对弈和拒绝反馈模块，以保持攻击语义的完整性、增强有效性和确保推理驱动的攻击进展得以持续。在多个LLMs上的广泛实验表明，RACE在复杂对话情景中实现了最先进的攻击效果，攻击成功率（ASRs）最多提高了96%。值得注意的是，我们的方法在与OpenAI o1和DeepSeek R1这类领先商用模型对抗时，达到了82%和92%的攻击成功率，这凸显了其效力。我们已在https://github.com/NY1024/RACE发布代码，以促进对该关键领域的进一步研究。