LLM2D

摘要

我们研究了如何使大型语言模型 (LLMs) 违背提示指定的规则。我们将遵循规则建模为命题 Horn 逻辑中的推理，这是一种数学系统，其中规则具有“如果 $P$ 且 $Q$，则 $R$”的形式，其中 $P$、$Q$ 和 $R$ 是某些命题。我们证明，尽管 LLMs 可以忠实地遵循此类规则，但恶意制作的提示可能会误导甚至理想化、理论上构建的模型。从经验上看，我们发现 LLMs 的推理行为与我们的理论构建一致，并且流行的攻击算法发现了具有我们理论预测的特征的对抗性提示。我们基于逻辑的框架为机械地理解 LLMs 在基于规则的设置（例如越狱攻击）中的行为提供了新的视角。