LLM2D

摘要

我们发现语言模型难以生成谬误和欺骗性的推理。当被要求生成欺骗性输出时，语言模型倾向于泄露诚实的对应物，但认为它们是假的。利用这种缺陷，我们提出了一种越狱攻击方法，该方法可以引诱对齐的语言模型进行恶意输出。具体来说，我们查询模型以生成一个谬误但具有欺骗性的真实程序，用于有害行为。由于谬误程序通常被 LLM 视为虚假且因此无害，因此它有助于绕过安全机制。然而，输出在事实上是有害的，因为 LLM 无法编造谬误的解决方案，而是提出了真实的解决方案。我们在五个安全对齐的大型语言模型上评估了我们的方法，比较了四种以前越狱方法，并表明我们的方法在更有害的输出方面取得了竞争性的性能。我们认为这些发现可以扩展到模型安全之外，例如自我验证和幻觉。