摘要
我们研究了如何使大型语言模型 (LLMs) 违背提示指定的规则。我们将遵循规则建模为命题 Horn 逻辑中的推理,这是一种数学系统,其中规则具有“如果 $P$ 且 $Q$,则 $R$”的形式,其中 $P$、$Q$ 和 $R$ 是某些命题。我们证明,尽管 LLMs 可以忠实地遵循此类规则,但恶意制作的提示可能会误导甚至理想化、理论上构建的模型。从经验上看,我们发现 LLMs 的推理行为与我们的理论构建一致,并且流行的攻击算法发现了具有我们理论预测的特征的对抗性提示。我们基于逻辑的框架为机械地理解 LLMs 在基于规则的设置(例如越狱攻击)中的行为提供了新的视角。