摘要
我们发现语言模型难以生成谬误和欺骗性的推理。当被要求生成欺骗性输出时,语言模型倾向于泄露诚实的对应物,但认为它们是假的。利用这种缺陷,我们提出了一种越狱攻击方法,该方法可以引诱对齐的语言模型进行恶意输出。具体来说,我们查询模型以生成一个谬误但具有欺骗性的真实程序,用于有害行为。由于谬误程序通常被 LLM 视为虚假且因此无害,因此它有助于绕过安全机制。然而,输出在事实上是有害的,因为 LLM 无法编造谬误的解决方案,而是提出了真实的解决方案。我们在五个安全对齐的大型语言模型上评估了我们的方法,比较了四种以前越狱方法,并表明我们的方法在更有害的输出方面取得了竞争性的性能。我们认为这些发现可以扩展到模型安全之外,例如自我验证和幻觉。