LLM2D

摘要

arXiv:2504.21038v1 安全公告类型: 交叉摘要：大型语言模型（LLMs）设计用于生成有益和安全的内容。然而，通常被称为“越狱”的对抗性攻击可以使它们的安全协议失效，促使LLMs生成有害内容或泄露敏感数据。因此，调查越狱方法对于暴露LLMs中的系统性脆弱性至关重要，最终将指导开发人员持续实施安全增强措施。在本文中，我们提出了一种新颖的越狱攻击方法，利用了LLMs的预输入功能，这是一种旨在增强模型输出约束的功能。与传统的越狱方法不同，所提出的攻击通过直接操纵后续令牌的概率分布，绕过了LLMs的安全机制，从而控制模型的输出。我们提出了两种攻击变体：静态预输入（SP），使用通用预输入文本；以及优化预输入（OP），通过迭代优化预输入文本以最大化攻击成功率。在AdvBench基准上对六种最新的LLM进行实验验证了我们方法的有效性，并且展示了当与现有的越狱方法结合使用时，其提高攻击成功率的能力。OP方法在某些模型上的攻击成功率高达99.82%，远超基线方法。本文介绍了一种新的LLMs越狱攻击方法，强调需要强大的内容验证机制来缓解预输入功能的对抗性利用。本文中使用的所有代码和数据都是公开的。