LLM2D
F-忠实度:一种用于可解释人工智能忠实度评估的鲁棒框架
F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI
作者: Xu Zheng, Farhad Shirani, Zhuomin Chen, Chaohao Lin, Wei Cheng, Wenbo Guo, Dongsheng Luo
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02970v1

摘要

近年来,许多可解释人工智能(XAI)技术被开发出来。尽管从深度学习模型中提取了有意义的见解,但如何正确评估这些XAI方法仍然是一个开放性问题。最常用的方法是对输入中XAI方法认为最重要的特征进行扰动甚至移除,观察输出预测的变化。尽管这种方法效率很高,但它存在着样本分布外(OOD)问题,因为扰动后的样本可能不再遵循原始数据分布。最近的一种方法,即移除并重新训练(ROAR)通过根据解释重新训练模型来解决OOD问题。然而,由于分布差异,训练可能并不总是收敛的。此外,使用基于XAI方法重新训练的模型来评估这些解释器可能会导致信息泄漏,从而导致不公平的比较。 我们提出了微调保真度F-保真度,这是一个用于XAI的鲁棒评估框架,它利用了i) 一种与解释无关的微调策略,从而减轻了信息泄漏问题,以及ii) 一种随机掩蔽操作,确保移除步骤不会生成OOD输入。我们设计了使用最先进(SOTA)解释器及其降级版本的受控实验,以验证我们框架的正确性。我们在多个数据结构上进行了实验,例如图像、时间序列和自然语言。结果表明,F-保真度在恢复解释器的真实排名方面显著优于先前的评估指标。此外,我们在理论和经验上都表明,给定一个忠实的解释器,F-保真度指标可以用来计算有影响力的输入组件的稀疏性,即提取真实的解释大小。