LLM2D

摘要

近年来，许多可解释人工智能（XAI）技术被开发出来。尽管从深度学习模型中提取了有意义的见解，但如何正确评估这些XAI方法仍然是一个开放性问题。最常用的方法是对输入中XAI方法认为最重要的特征进行扰动甚至移除，观察输出预测的变化。尽管这种方法效率很高，但它存在着样本分布外（OOD）问题，因为扰动后的样本可能不再遵循原始数据分布。最近的一种方法，即移除并重新训练（ROAR）通过根据解释重新训练模型来解决OOD问题。然而，由于分布差异，训练可能并不总是收敛的。此外，使用基于XAI方法重新训练的模型来评估这些解释器可能会导致信息泄漏，从而导致不公平的比较。我们提出了微调保真度F-保真度，这是一个用于XAI的鲁棒评估框架，它利用了i) 一种与解释无关的微调策略，从而减轻了信息泄漏问题，以及ii) 一种随机掩蔽操作，确保移除步骤不会生成OOD输入。我们设计了使用最先进（SOTA）解释器及其降级版本的受控实验，以验证我们框架的正确性。我们在多个数据结构上进行了实验，例如图像、时间序列和自然语言。结果表明，F-保真度在恢复解释器的真实排名方面显著优于先前的评估指标。此外，我们在理论和经验上都表明，给定一个忠实的解释器，F-保真度指标可以用来计算有影响力的输入组件的稀疏性，即提取真实的解释大小。