LLM2D
增强推理的对话针对大型语言模型的多轮脱轨攻击推理
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
作者: Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, Dacheng Tao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11054v2

摘要

arXiv:2502.11054v2 类型: 交叉 摘要:多回合脱狱攻击通过让大型语言模型(LLMs)进行迭代对话来模拟现实世界的人类互动,暴露了关键的安全漏洞。然而,现有方法往往在语义连贯性和攻击效果之间难以平衡,导致要么出现无害的语义漂移,要么无法有效防止检测。为了解决这一挑战,我们提出了一种名为增强推理对话的新颖多回合脱狱框架,将有害查询重新表述为良性推理任务,并利用LLMs强大的推理能力来破坏安全对齐。具体来说,我们引入了一种攻击状态机框架,系统地建模问题转换和迭代推理,确保在多回合中生成语义连贯的查询。在此框架的基础上,我们设计了收益导向的探索、自我博弈和拒绝反馈模块,以保持攻击语义,增强有效性,并维持以推理驱动的攻击进展。在多个LLMs上的广泛实验表明,RACE在复杂的对话场景中达到了最先进的攻击效果,攻击成功率(ASRs)提高了高达96%。值得注意的是,我们的方法相对于领先商用模型OpenAI o1和DeepSeek R1的ASRs分别为82%和92%,突显了其强大之处。我们已在https://github.com/NY1024/RACE发布我们的代码,以促进对该关键领域的进一步研究。