LLM2D

摘要

特征归因方法试图通过识别相关特征来解释神经网络的预测。然而，建立一个连贯的框架来评估特征归因仍然是一个挑战。我们可以通过多种视角来评估归因。一个主要的视角是观察扰动归因特征对模型行为的影响（即保真度）。虽然现有的保真度评估提供了有用的见解，但本文揭示了其不足之处。在这项工作中，我们在保真度范式内提出了两个新的视角，揭示了直观的特性：健全性和完整性。健全性评估归因特征真正成为预测特征的程度，而完整性则检查生成的归因在多大程度上揭示了所有预测特征。这两个视角基于坚实的数学基础，并提供可通过高效算法计算的定量指标。我们将这些指标应用于主流归因方法，提供了一个新的视角来分析和比较特征归因方法。