LLM2D

摘要

arXiv:2502.09723v1 安全类型：跨域摘要：近年来，大规模语言模型（LLMs）在自然语言处理领域的应用展示了显著的潜力。不幸的是，LLMs 面临着重大的安全和伦理风险。尽管已经开发出了诸如安全对齐等技术来防御攻击，但先前的研究揭示了通过精心设计的监狱逃脱攻击绕过这些防御的可能性。在本文中，我们提出了 QueryAttack，这是一种新颖的框架，用于系统地检验安全对齐的一般适用性。通过将 LLM 视为知识数据库，我们将自然语言中的恶意查询转化为代码风格的结构化查询，以便绕过 LLM 的安全对齐机制。我们在主流的 LLM 上进行了广泛的实验，结果显示，QueryAttack 在不同开发者和能力的 LLM 上都实现了较高的攻击成功率（ASRs）。我们还评估了 QueryAttack 对抗常见防御措施的表现，证实了使用一般防御技术难以削弱 QueryAttack 的效果。为了抵御 QueryAttack，我们专门设计了一种防御方法，在 GPT-4-1106 上可以将攻击成功率降低高达 64%。QueryAttack 的代码可以在 https://anonymous.4open.science/r/QueryAttack-334B 找到。