LLM2D

摘要

arXiv:2502.09723v2 通告类型: replace-cross 摘要：近期大语言模型（LLMs）在自然语言处理领域的应用展现了非凡的潜力。不幸的是，LLMs 面临着重要的安全和伦理风险。尽管已经发展了诸如安全对齐等防御技术，但先前的研究揭示了通过精心设计的 Jailbreak 攻击绕过这些防御的可能性。在本文中，我们提出了一种名为 QueryAttack 的新型框架，用于检验安全对齐的泛化能力。通过将 LLM 视作知识数据库，我们将自然语言中的恶意查询转化为结构化的非自然查询语言，从而绕过 LLM 的安全对齐机制。我们在主流的大语言模型上进行了广泛的实验，结果显示，QueryAttack 不仅可以实现高攻击成功率（ASRs），还能突破各种防御方法。此外，我们针对 QueryAttack 设计了一种防御方法，该方法在 GPT-4-1106 上将 ASR 减少高达 64%。我们的代码可在 https://github.com/horizonsinzqs/QueryAttack 获取。