LLM2D

摘要

近年来，人们开发了许多解释方法来解释深度神经网络（DNN）模型所做的决策。对于图像分类器，这些方法通常为图像中的每个像素提供一个归因分数，以量化其对预测的贡献。然而，大多数这些解释方法独立地将归因分数分配给像素，尽管人类和 DNN 都通过同时分析一组密切相关的像素来做出决策。因此，应该通过考虑自身及其结构上类似的像素来联合评估像素的归因分数。我们提出了一种名为 IProp 的方法，该方法将每个像素的个体归因分数建模为解释信息的来源，并通过信息在所有像素上的动态传播来解释图像预测。为了制定信息传播，IProp 采用马尔可夫奖励过程，该过程保证收敛，最终状态指示所需像素的归因分数。此外，IProp 与任何现有的基于归因的解释方法兼容。在各种解释方法和 DNN 模型上的大量实验验证了 IProp 在各种可解释性指标上显着提高了它们。