摘要
为什么基于梯度的解释方法难以应对Transformer模型,我们又该如何改进它们?我们发现了Transformer模型中梯度流失衡的问题,这违反了全梯度完备性(FullGrad-completeness)——卷积神经网络(CNN)天然具备的一个关键属性,对属性的忠实性至关重要。为了解决这个问题,我们引入了LibraGrad——一种理论上合理的后期处理方法,它通过对反向传播路径进行剪枝和缩放来校正梯度失衡,而无需改变前向传播过程或增加计算开销。我们使用三个指标族来评估LibraGrad:忠实性(Faithfulness),量化了在对最相关和最不相关特征进行扰动后预测的变化;完备性误差(Completeness Error),衡量了相对于模型输出的属性守恒性;以及分割平均精度(Segmentation AP),评估了与人类感知的一致性。在8种架构、4种模型大小和4个数据集上进行的大量实验表明,LibraGrad普遍增强了基于梯度的方法,在所有指标上都优于现有的白盒方法,包括针对Transformer的特定方法。我们通过两个互补的评估证明了其优越的定性结果:在CLIP模型上进行精确的文本提示区域高亮显示,以及在ImageNet微调模型上对同时出现的动物进行准确的类别区分——这两个设置是现有方法经常难以应对的。即使在无注意力机制的MLP-Mixer架构上,LibraGrad也同样有效,这表明它有可能扩展到其他现代架构。我们的代码可在https://github.com/NightMachinery/LibraGrad免费获取。