摘要
arXiv:2504.08919v1 类型:交叉
摘要:后验解释方法通过将预测归因于输入特征来提供解释。自然的解释期望解释输入如何导致预测。因此,一个基本问题出现了:这些解释是否无意中逆转了输入与输出之间的自然关系?具体来说,这些解释是否在反映真实的决策过程,而不是合理化预测结果?为了调查这种解释反转,我们提出了反转量化(IQ)框架,该框架量化了解释依赖于输出的程度以及偏离真实的输入-输出关系的程度。通过该框架,我们证明在合成数据集上,广泛使用的LIME和SHAP等方法容易发生这种反转,特别是在存在虚假相关性的条件下,这种反转在表格、图像和文本领域尤为常见。最后,我们提出了戳穿重现实验(RBP),这是一种简单且模型无关的后验解释方法增强,它整合了前向扰动检查。此外,我们证明在IQ框架下,RBP理论上可以保证解释反转的缓解。从实验上来看,例如,在合成数据上,RBP可以将经典的后验解释方法在各个领域中的反转程度平均减少1.8%。