LLM2D

摘要

arXiv:2502.11054v2 类型: 交叉摘要：多回合脱狱攻击通过让大型语言模型（LLMs）进行迭代对话来模拟现实世界的人类互动，暴露了关键的安全漏洞。然而，现有方法往往在语义连贯性和攻击效果之间难以平衡，导致要么出现无害的语义漂移，要么无法有效防止检测。为了解决这一挑战，我们提出了一种名为增强推理对话的新颖多回合脱狱框架，将有害查询重新表述为良性推理任务，并利用LLMs强大的推理能力来破坏安全对齐。具体来说，我们引入了一种攻击状态机框架，系统地建模问题转换和迭代推理，确保在多回合中生成语义连贯的查询。在此框架的基础上，我们设计了收益导向的探索、自我博弈和拒绝反馈模块，以保持攻击语义，增强有效性，并维持以推理驱动的攻击进展。在多个LLMs上的广泛实验表明，RACE在复杂的对话场景中达到了最先进的攻击效果，攻击成功率（ASRs）提高了高达96%。值得注意的是，我们的方法相对于领先商用模型OpenAI o1和DeepSeek R1的ASRs分别为82%和92%，突显了其强大之处。我们已在https://github.com/NY1024/RACE发布我们的代码，以促进对该关键领域的进一步研究。