摘要
我们提出了一种新的漏洞,它利用自回归模型中的固定点,并利用它来构造永不停止的查询,即不会终止的 LLM 输出。更准确地说,对于我们所说的非停止查询,LLM 永远不会采样字符串结束标记 ( )。我们严格分析了非停止异常出现的情况。特别地,在温度为零的情况下,我们证明了如果在上下文大小之外的输出中观察到重复(循环)的标记序列,那么 LLM 不会停止。
我们在基本(未对齐)模型中进行的一系列实验中证明了非停止异常,其中重复的标记会立即导致如分析预测的那样的非停止循环行为。此外,我们开发了一个简单的方案,该方案利用在基本模型中观察到的相同固定点,并创建一个提示结构来针对对齐模型。我们研究了该方案在绕过对齐方面的一系列 LLM 中的行为,包括 GPT-4o、llama-3-8b-instruct 和 gemma-2-9b-it,其中所有模型都被迫进入非停止状态。此外,我们证明了该方案在将过去一年发布的大多数主要模型发送到非停止状态方面的成功,即使在更高的温度下,也使用相同的简单提示。此外,我们研究了基于直接反转的技术来构造新的短提示以诱导非停止状态。我们使用基于梯度搜索的反转技术 ARCA 进行的实验表明,非停止现象在模型中普遍存在,并且可以通过几个输入标记轻松诱导。
虽然可以通过在采样器中配置硬最大令牌限制来缓解其对托管系统可靠性的影响,但非停止异常仍然设法破坏了对齐。这强调了需要进一步研究和更强的对齐形式来对抗非停止异常。