摘要
arXiv:2406.03012v2 更新类型: 替换-交叉
摘要:可解释人工智能(XAI)广泛用于分析人工智能系统的决策机制,例如提供用于补救的反事实解释。当出现意外解释时,用户可能希望了解塑造这些解释的训练数据属性。在数据估值的框架下,已经提出了初步方法来估算数据样本对给定模型的影响。这一过程不仅有助于确定数据的价值,还提供了关于个别、可能噪声或误导性示例如何影响模型的见解,这对于可解释的人工智能至关重要。在此工作中,我们将数据估值的概念应用到模型评估的重要领域,重点关注个别训练样本如何影响模型的内部推理,而不仅仅是预测性能。因此,我们引入了识别塑造给定解释或相关量的训练样本的新型问题,并探讨了计算补救成本的特殊情况。我们提出了一个算法来识别这些有影响力的样本,并在两个案例研究中进行了广泛的实证评估。