LLM2D
Transformer电路机理揭秘:自我影响是模型推理的关键
Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
作者: Lin Zhang, Lijie Hu, Di Wang
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09022v2

摘要

arXiv:2502.09022v2 Announce Type: replace 摘要:基于变换器的语言模型取得了显著的成功;然而,由于非线性交互和高维操作的复杂性,它们的内部机制仍然大部分处于不透明的状态。尽管以往的研究表明这些模型隐含地嵌入了推理树,但人类在完成相同任务时通常会使用多种不同的逻辑推理机制。至于语言模型在解决此类任务时使用了哪些多步推理机制,仍然不清楚。在本文中,我们希望通过研究语言模型的机制可解释性,特别是多步推理任务的背景下,来回答这个问题。具体而言,我们使用电路分析和自我影响函数来评估推理过程中国每种子在整个过程中的重要性变化,从而使我们能够映射出模型所采用的推理路径。我们在这项方法论上应用了GPT-2模型,并将其应用于一个预测任务(IOI),并展示了底层电路揭示了模型所使用的人类可解释的推理过程。