LLM2D
稀疏特征电路:在语言模型中发现和编辑可解释的因果图
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models
作者: Samuel Marks, Can Rager, Eric J. Michaud, Yonatan Belinkov, David Bau, Aaron Mueller
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2403.19647v3

摘要

arXiv:2403.19647v3 宣告类型: replace-cross 摘要: 我们提出了一种发现和应用稀疏特征电路的方法。这些电路是由人类可解释的特征构成的具有因果关系的子网络,用于解释语言模型的行为。此前工作中识别出的电路包括多义且难以解释的基本单元,如注意力头或神经元,这使得它们不适合许多下游应用。相比之下,稀疏特征电路能够提供对未预见机制的详细理解。由于这些电路基于细粒度的基本单元,因此它们对于下游任务非常有用:我们介绍了SHIFT方法,通过消除一个人判断与任务无关的特征来提高分类器的泛化能力。最后,我们展示了一个完全无监督且可扩展的解释性流水线,通过自动发现数千个稀疏特征电路来解释模型行为。