摘要
arXiv:2504.21700v1 宣布类型: cross
摘要:大型语言模型是现代由AI解决方案主导的IT景观中的基本行为体。然而,与它们相关联的安全威胁可能会阻碍它们在政府组织和医疗机构等关键应用场景中的可靠采用。为此,商业LLM通常会经历复杂的过滤机制,以消除它们可能产生的任何有害输出。针对这种情况,LLM脱狱是这种保护的重大威胁,而且此前已经有许多方法在此方面证明了其有效性。现有的脱狱提案大多采用生成和测试策略来制定恶意输入。为了提高对过滤机制的理解并设计有针对性的脱狱攻击,我们提出了一种可解释的AI解决方案,该解决方案通过比较分析受过滤和未受过滤模型的行为来推导出独特的可利用对齐模式。然后,我们提出了XBreaking,一种新颖的脱狱攻击,通过有针对性的噪声注入利用这些独特的模式来突破LLM的安全约束。我们的彻底实验活动提供了关于过滤机制的重要见解,并展示了我们攻击的有效性和性能。