LLM2D

摘要

arXiv:2502.11054v1 声明类型: cross 摘要：多轮牢笼攻击通过让大规模语言模型（LLMs）在迭代对话中参与，模拟现实世界的人际互动，从而暴露了关键的安全漏洞。然而，现有的方法往往难以在语义连贯性和攻击效果之间取得平衡，导致要么语义漂移无害，要么检测逃逸无效。为了解决这一挑战，我们提出了增强推理的会话（Reasoning-Augmented Conversation, RACE），这是一种新颖的多轮牢笼框架，通过将有害查询重新构造成无害的推理任务，并利用LLMs的强大推理能力来破坏安全对齐。具体来说，我们引入了一个攻击状态机框架，系统地建模问题翻译和迭代推理，确保多次轮次中查询生成的连贯性。基于此框架，我们设计了收益导向的探索、自我博弈和拒绝反馈模块，以保持攻击的语义，增强效果，并维持基于推理的攻击进展。在多个LLMs上的广泛实验表明，RACE在复杂对话场景中的攻击效果达到了最先进的水平，攻击成功率（ASRs）提高了高达96%。值得注意的是，我们的方法在对抗领先的商用模型OpenAI o1和DeepSeek R1时分别取得了82%和92%的攻击成功率，突显了其强大的能力。我们将在https://github.com/NY1024/RACE发布我们的代码，以促进在此关键领域的进一步研究。