LLM2D
我们只是在事后为结果辩解吗?量化后续模型解释中的解释倒置现象
Are We Merely Justifying Results ex Post Facto? Quantifying Explanatory Inversion in Post-Hoc Model Explanations
作者: Zhen Tan, Song Wang, Yifan Li, Yu Kong, Jundong Li, Tianlong Chen, Huan Liu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08919v1

摘要

arXiv:2504.08919v1 类型:交叉 摘要:后验解释方法通过将预测归因于输入特征来提供解释。自然的解释期望解释输入如何导致预测。因此,一个基本问题出现了:这些解释是否无意中逆转了输入与输出之间的自然关系?具体来说,这些解释是否在反映真实的决策过程,而不是合理化预测结果?为了调查这种解释反转,我们提出了反转量化(IQ)框架,该框架量化了解释依赖于输出的程度以及偏离真实的输入-输出关系的程度。通过该框架,我们证明在合成数据集上,广泛使用的LIME和SHAP等方法容易发生这种反转,特别是在存在虚假相关性的条件下,这种反转在表格、图像和文本领域尤为常见。最后,我们提出了戳穿重现实验(RBP),这是一种简单且模型无关的后验解释方法增强,它整合了前向扰动检查。此外,我们证明在IQ框架下,RBP理论上可以保证解释反转的缓解。从实验上来看,例如,在合成数据上,RBP可以将经典的后验解释方法在各个领域中的反转程度平均减少1.8%。