摘要
arXiv:2502.09723v2 通告类型: replace-cross
摘要:近期大语言模型(LLMs)在自然语言处理领域的应用展现了非凡的潜力。不幸的是,LLMs 面临着重要的安全和伦理风险。尽管已经发展了诸如安全对齐等防御技术,但先前的研究揭示了通过精心设计的 Jailbreak 攻击绕过这些防御的可能性。在本文中,我们提出了一种名为 QueryAttack 的新型框架,用于检验安全对齐的泛化能力。通过将 LLM 视作知识数据库,我们将自然语言中的恶意查询转化为结构化的非自然查询语言,从而绕过 LLM 的安全对齐机制。我们在主流的大语言模型上进行了广泛的实验,结果显示,QueryAttack 不仅可以实现高攻击成功率(ASRs),还能突破各种防御方法。此外,我们针对 QueryAttack 设计了一种防御方法,该方法在 GPT-4-1106 上将 ASR 减少高达 64%。我们的代码可在 https://github.com/horizonsinzqs/QueryAttack 获取。