LLM2D

摘要

为什么基于梯度的解释方法难以应对Transformer模型，我们又该如何改进它们？我们发现了Transformer模型中梯度流失衡的问题，这违反了全梯度完备性（FullGrad-completeness）——卷积神经网络（CNN）天然具备的一个关键属性，对属性的忠实性至关重要。为了解决这个问题，我们引入了LibraGrad——一种理论上合理的后期处理方法，它通过对反向传播路径进行剪枝和缩放来校正梯度失衡，而无需改变前向传播过程或增加计算开销。我们使用三个指标族来评估LibraGrad：忠实性（Faithfulness），量化了在对最相关和最不相关特征进行扰动后预测的变化；完备性误差（Completeness Error），衡量了相对于模型输出的属性守恒性；以及分割平均精度（Segmentation AP），评估了与人类感知的一致性。在8种架构、4种模型大小和4个数据集上进行的大量实验表明，LibraGrad普遍增强了基于梯度的方法，在所有指标上都优于现有的白盒方法，包括针对Transformer的特定方法。我们通过两个互补的评估证明了其优越的定性结果：在CLIP模型上进行精确的文本提示区域高亮显示，以及在ImageNet微调模型上对同时出现的动物进行准确的类别区分——这两个设置是现有方法经常难以应对的。即使在无注意力机制的MLP-Mixer架构上，LibraGrad也同样有效，这表明它有可能扩展到其他现代架构。我们的代码可在https://github.com/NightMachinery/LibraGrad免费获取。