LLM2D
自动回归语言模型中演绎推理的机制解释
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models
作者: Geonhee Kim, Marco Valentino, Andr\'e Freitas
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2408.08590v2

摘要

arXiv:2408.08590v2 通报类型: 替换-交叉 摘要:关于语言模型(LMs)在逻辑推理中的研究引发了关于它们在预训练过程中是否能够学习系统性的推理原则,还是仅仅利用训练数据中的表面模式的辩论。本文旨在通过机制解释LMs中的演绎推理,以加深对其内部动态的理解。具体而言,我们提出了一个电路发现的方法,旨在解释内容无关的推理机制。通过两种不同的干预方法,我们揭示了一个关于中间项抑制的充分必要电路,阐明了LMs如何通过前提传递信息以得出有效的结论。此外,我们调查了信念偏见在演绎推理中的表现,发现负责编码常识和上下文信息的额外注意力头的行为对推理产生了部分污染的证据。最后,我们探讨了所发现机制在各种演绎推理方案、模型规模和架构上的泛化能力,发现所识别的电路对于模型在下游任务中达到高准确率(>60%)的方案是充分必要的,并且激活模式适用于不同家族的模型。总体而言,我们的研究结果表明,LMs确实学习了可转移的内容无关的推理机制,但这些机制不涉及可泛化的和抽象的逻辑原语,这些机制容易受到预训练期间获得的世界知识的污染。