LLM2D

摘要

arXiv:2406.03012v2 更新类型: 替换-交叉摘要：可解释人工智能（XAI）广泛用于分析人工智能系统的决策机制，例如提供用于补救的反事实解释。当出现意外解释时，用户可能希望了解塑造这些解释的训练数据属性。在数据估值的框架下，已经提出了初步方法来估算数据样本对给定模型的影响。这一过程不仅有助于确定数据的价值，还提供了关于个别、可能噪声或误导性示例如何影响模型的见解，这对于可解释的人工智能至关重要。在此工作中，我们将数据估值的概念应用到模型评估的重要领域，重点关注个别训练样本如何影响模型的内部推理，而不仅仅是预测性能。因此，我们引入了识别塑造给定解释或相关量的训练样本的新型问题，并探讨了计算补救成本的特殊情况。我们提出了一个算法来识别这些有影响力的样本，并在两个案例研究中进行了广泛的实证评估。