LLM2D
增强推理的多轮Jailbreak攻击对话对于大型语言模型的安全性
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
作者: Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, Dacheng Tao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11054v1

摘要

arXiv:2502.11054v1 声明类型: cross 摘要:多轮牢笼攻击通过让大规模语言模型(LLMs)在迭代对话中参与,模拟现实世界的人际互动,从而暴露了关键的安全漏洞。然而,现有的方法往往难以在语义连贯性和攻击效果之间取得平衡,导致要么语义漂移无害,要么检测逃逸无效。为了解决这一挑战,我们提出了增强推理的会话(Reasoning-Augmented Conversation, RACE),这是一种新颖的多轮牢笼框架,通过将有害查询重新构造成无害的推理任务,并利用LLMs的强大推理能力来破坏安全对齐。具体来说,我们引入了一个攻击状态机框架,系统地建模问题翻译和迭代推理,确保多次轮次中查询生成的连贯性。基于此框架,我们设计了收益导向的探索、自我博弈和拒绝反馈模块,以保持攻击的语义,增强效果,并维持基于推理的攻击进展。在多个LLMs上的广泛实验表明,RACE在复杂对话场景中的攻击效果达到了最先进的水平,攻击成功率(ASRs)提高了高达96%。值得注意的是,我们的方法在对抗领先的商用模型OpenAI o1和DeepSeek R1时分别取得了82%和92%的攻击成功率,突显了其强大的能力。我们将在https://github.com/NY1024/RACE发布我们的代码,以促进在此关键领域的进一步研究。