LLM2D

摘要

在机制可解释性领域，探索语言模型（LMs）中的语言能力一直是核心目标之一。然而，现有的电路分析方法往往无法全面地代表这些模型的全部功能范围，主要原因是忽略了前馈层。此外，从文本中分离出单一语言能力的效应也面临着重大挑战，因为文本本身包含了多个相互交织的能力。为了解决这些问题，我们引入了一个新的概念，即记忆电路，它是一个最小单元，能够完全独立地操控语言模型的记忆读取功能，并精确地将 Transformer 模型分解为一个电路图，该图由连接不同记忆电路的路径集合组成。基于这种分解，我们确定了重要的电路路径，称为技能路径，它们负责三种关键的语言能力，即前一个词元技能、归纳技能和上下文学习（ICL）技能，并利用干预和反事实的因果效应估计来进行分析。我们在各种数据集上的实验结果证实了我们所识别的技能路径与语言能力之间的对应关系，并验证了三个长期存在的假设：1）通过电路解剖可以识别语言能力；2）简单的语言能力存在于浅层，而复杂的语言能力存在于深层；3）复杂的语言能力是在更简单的语言能力的基础上形成的。我们的代码可在以下地址获取：https://github.com/Zodiark-ch/Language-Skill-of-LLMs。