摘要
arXiv:2502.06852v1 宣告类型: cross
摘要:理解基于变压器的语言模型的内部机制仍然具有挑战性。基于电路发现的机制可解释性旨在通过分析其计算子图的内部过程来逆向工程神经网络。在本文中,我们重新审视了现有的基于梯度的电路识别方法,并发现它们的表现要么受到零梯度问题的影响,要么受到了饱和效应的影响,其中边缘可解释性分数对输入变化变得不敏感,导致电路组件的可解释性评估结果噪声大且不可靠。为应对饱和效应,我们提出了一种名为GradPath的边缘可解释性修补方法(EAP-GP)。EAP-GP引入了一条整合路径,从输入开始,并自适应地跟随受损输入和干净输入梯度差异的方向,以避免饱和区域。这种方法增强了可解释性的可靠性,并改善了电路识别的忠实性。我们使用GPT-2 Small、GPT-2 Medium和GPT-2 XL在这6个数据集上评估了EAP-GP。实验结果表明,EAP-GP在电路忠实性方面优于现有方法,实现了最高达17.7%的改进。与手动标注的真相地电路进行比较,EAP-GP的精确度和召回率达到了或优于之前的方法,突显了其在识别准确电路方面的有效性。