LLM2D

摘要

许多论文表明，注意力头协同工作以执行复杂的任务。人们通常认为，注意力头之间的通信是通过向令牌残差添加特定特征来实现的。在这项工作中，我们试图分离和识别用于在 GPT-2 small 中的注意力头之间进行通信和协调的特征。我们对该问题的关键利用是证明这些特征在注意力头矩阵的奇异向量中经常以稀疏编码的方式出现。我们描述了 GPT-2 small 用于间接宾语识别 (IOI) 任务时，这些信号在注意力头中的维度和出现频率。由注意力头奇异向量提供的信号的稀疏编码，允许有效地将信号与残余背景分离，并直接识别注意力头之间的通信路径。我们通过追踪 IOI 任务中使用的电路的一部分来探索这种方法的有效性。我们的追踪揭示了以前研究中没有的相当多的细节，揭示了 GPT-2 中存在冗余路径的性质。我们的追踪超越了以前的工作，通过识别用于在执行 IOI 时注意力头之间进行通信的特征。