LLM2D

摘要

arXiv:2504.08919v1 类型:交叉摘要：后验解释方法通过将预测归因于输入特征来提供解释。自然的解释期望解释输入如何导致预测。因此，一个基本问题出现了：这些解释是否无意中逆转了输入与输出之间的自然关系？具体来说，这些解释是否在反映真实的决策过程，而不是合理化预测结果？为了调查这种解释反转，我们提出了反转量化（IQ）框架，该框架量化了解释依赖于输出的程度以及偏离真实的输入-输出关系的程度。通过该框架，我们证明在合成数据集上，广泛使用的LIME和SHAP等方法容易发生这种反转，特别是在存在虚假相关性的条件下，这种反转在表格、图像和文本领域尤为常见。最后，我们提出了戳穿重现实验（RBP），这是一种简单且模型无关的后验解释方法增强，它整合了前向扰动检查。此外，我们证明在IQ框架下，RBP理论上可以保证解释反转的缓解。从实验上来看，例如，在合成数据上，RBP可以将经典的后验解释方法在各个领域中的反转程度平均减少1.8%。