摘要
arXiv:2407.00075v3 提交类型:替换
摘要:我们研究如何使大型语言模型(LLMs)违背指令指定的规则。我们首先将规则遵循形式化为命题 Horn 逻辑中的推理,这是一种数学系统,其中规则具有“如果 $P$ 和 $Q$,则 $R$”的形式,其中 $P$、$Q$ 和 $R$ 是某些命题。接下来,我们证明尽管小的变压器能够忠实遵循此类规则,但恶意构造的指令仍然可以误导理论构建和从数据中学习的模型。此外,我们展示了针对LLMs的流行攻击算法能够找到对抗性指令,并诱导与我们的理论相一致的注意力模式。我们提出的新逻辑基础框架为在基于规则的环境中研究LLMs奠定了基础,使我们能够对逻辑推理任务和解除封印攻击进行形式分析。