摘要
特征归因方法试图通过识别相关特征来解释神经网络的预测。然而,建立一个连贯的框架来评估特征归因仍然是一个挑战。我们可以通过多种视角来评估归因。一个主要的视角是观察扰动归因特征对模型行为的影响(即保真度)。虽然现有的保真度评估提供了有用的见解,但本文揭示了其不足之处。在这项工作中,我们在保真度范式内提出了两个新的视角,揭示了直观的特性:健全性和完整性。健全性评估归因特征真正成为预测特征的程度,而完整性则检查生成的归因在多大程度上揭示了所有预测特征。这两个视角基于坚实的数学基础,并提供可通过高效算法计算的定量指标。我们将这些指标应用于主流归因方法,提供了一个新的视角来分析和比较特征归因方法。