摘要
arXiv:2502.11054v1 声明类型: cross
摘要:多轮牢笼攻击通过让大规模语言模型(LLMs)在迭代对话中参与,模拟现实世界的人际互动,从而暴露了关键的安全漏洞。然而,现有的方法往往难以在语义连贯性和攻击效果之间取得平衡,导致要么语义漂移无害,要么检测逃逸无效。为了解决这一挑战,我们提出了增强推理的会话(Reasoning-Augmented Conversation, RACE),这是一种新颖的多轮牢笼框架,通过将有害查询重新构造成无害的推理任务,并利用LLMs的强大推理能力来破坏安全对齐。具体来说,我们引入了一个攻击状态机框架,系统地建模问题翻译和迭代推理,确保多次轮次中查询生成的连贯性。基于此框架,我们设计了收益导向的探索、自我博弈和拒绝反馈模块,以保持攻击的语义,增强效果,并维持基于推理的攻击进展。在多个LLMs上的广泛实验表明,RACE在复杂对话场景中的攻击效果达到了最先进的水平,攻击成功率(ASRs)提高了高达96%。值得注意的是,我们的方法在对抗领先的商用模型OpenAI o1和DeepSeek R1时分别取得了82%和92%的攻击成功率,突显了其强大的能力。我们将在https://github.com/NY1024/RACE发布我们的代码,以促进在此关键领域的进一步研究。