LLM2D

摘要

arXiv:2407.00075v3 提交类型：替换摘要：我们研究如何使大型语言模型（LLMs）违背指令指定的规则。我们首先将规则遵循形式化为命题 Horn 逻辑中的推理，这是一种数学系统，其中规则具有“如果 $P$ 和 $Q$，则 $R$”的形式，其中 $P$、$Q$ 和 $R$ 是某些命题。接下来，我们证明尽管小的变压器能够忠实遵循此类规则，但恶意构造的指令仍然可以误导理论构建和从数据中学习的模型。此外，我们展示了针对LLMs的流行攻击算法能够找到对抗性指令，并诱导与我们的理论相一致的注意力模式。我们提出的新逻辑基础框架为在基于规则的环境中研究LLMs奠定了基础，使我们能够对逻辑推理任务和解除封印攻击进行形式分析。