摘要
尽管深度神经网络(DNN)取得了成功并被广泛采用,但其不透明的本质仍然阻碍了人们对其的信任,尤其是在关键应用中。现有的可解释性解决方案往往会产生不一致或过于简化的解释,或者需要对模型进行改变以损害性能。在这项工作中,我们介绍了 TRACER,这是一种基于因果推理理论的新方法,旨在估计 DNN 决策背后的因果动态,而不会改变其架构或损害其性能。我们的方法系统地干预输入特征,以观察特定变化如何通过网络传播,影响内部激活和最终输出。基于此分析,我们确定了各个特征的重要性,并通过将功能相似的层分组到具有凝聚力的因果节点中,构建了一个高级因果图,从而提供了一个结构化且可解释的视图,说明网络的不同部分如何影响决策。TRACER 通过生成反事实进一步增强了可解释性,这些反事实揭示了可能的模型偏差,并为错误分类提供了对比解释。通过对不同数据集进行综合评估,我们证明了 TRACER 比现有方法更有效,并展示了其在创建高度压缩但准确的模型方面的潜力,说明了其在理解和优化 DNN 方面的双重多功能性。