LLM2D
稀疏注意力分解应用于电路追踪
Sparse Attention Decomposition Applied to Circuit Tracing
作者: Gabriel Franco, Mark Crovella
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.00340v2

摘要

许多论文表明,注意力头协同工作以执行复杂的任务。人们通常假设注意力头之间的通信是通过向令牌残差添加特定特征来实现的。在这项工作中,我们试图分离并识别用于在 GPT-2 small 中实现注意力头之间通信和协调的特征。我们解决这个问题的关键是,这些特征通常以注意力头矩阵的奇异向量中稀疏编码的形式出现。我们描述了当 GPT-2 small 用于间接宾语识别 (IOI) 任务时,这些信号在整个注意力头中的维数和出现情况。注意力头奇异向量提供的信号稀疏编码,允许从残差背景中有效地分离信号,并直接识别注意力头之间的通信路径。我们通过追踪 IOI 任务中使用的电路的部分来探索这种方法的有效性。我们的追踪揭示了先前研究中没有的相当多的细节,揭示了 GPT-2 中存在的冗余路径的性质。我们的追踪超出了先前的工作,通过识别用于在执行 IOI 时在注意力头之间进行通信的特征。