摘要
arXiv:2502.11054v3 通知类型: replace-cross
摘要:多回合监狱突破攻击通过让大型语言模型(LLMs)在迭代对话中参与,模拟现实生活中的互动,揭示了关键的安全漏洞。然而,现有的方法往往难以在语义连贯性和攻击有效性之间取得平衡,导致语义良性漂移或无效的检测规避。为了解决这一挑战,我们提出了一种新颖的多回合监狱突破框架——增强推理对话(Reasoning-Augmented Conversation, RACE),该框架将有害查询重新表述为良性推理任务,并利用LLMs的强大推理能力来破坏安全对齐。具体而言,我们引入了一种攻击状态机框架,系统地建模问题翻译和迭代推理,确保多次回合中查询生成的一致性。基于此框架,我们设计了收益导向探索、自我对弈和拒绝反馈模块,以保持攻击语义的完整性、增强有效性和确保推理驱动的攻击进展得以持续。在多个LLMs上的广泛实验表明,RACE在复杂对话情景中实现了最先进的攻击效果,攻击成功率(ASRs)最多提高了96%。值得注意的是,我们的方法在与OpenAI o1和DeepSeek R1这类领先商用模型对抗时,达到了82%和92%的攻击成功率,这凸显了其效力。我们已在https://github.com/NY1024/RACE发布代码,以促进对该关键领域的进一步研究。