LLM2D

摘要

arXiv:2403.19647v3 宣告类型: replace-cross 摘要: 我们提出了一种发现和应用稀疏特征电路的方法。这些电路是由人类可解释的特征构成的具有因果关系的子网络，用于解释语言模型的行为。此前工作中识别出的电路包括多义且难以解释的基本单元，如注意力头或神经元，这使得它们不适合许多下游应用。相比之下，稀疏特征电路能够提供对未预见机制的详细理解。由于这些电路基于细粒度的基本单元，因此它们对于下游任务非常有用：我们介绍了SHIFT方法，通过消除一个人判断与任务无关的特征来提高分类器的泛化能力。最后，我们展示了一个完全无监督且可扩展的解释性流水线，通过自动发现数千个稀疏特征电路来解释模型行为。