LLM2D

摘要

尽管深度神经网络（DNN）取得了成功并被广泛采用，但其不透明的本质仍然阻碍了人们对其的信任，尤其是在关键应用中。现有的可解释性解决方案往往会产生不一致或过于简化的解释，或者需要对模型进行改变以损害性能。在这项工作中，我们介绍了 TRACER，这是一种基于因果推理理论的新方法，旨在估计 DNN 决策背后的因果动态，而不会改变其架构或损害其性能。我们的方法系统地干预输入特征，以观察特定变化如何通过网络传播，影响内部激活和最终输出。基于此分析，我们确定了各个特征的重要性，并通过将功能相似的层分组到具有凝聚力的因果节点中，构建了一个高级因果图，从而提供了一个结构化且可解释的视图，说明网络的不同部分如何影响决策。TRACER 通过生成反事实进一步增强了可解释性，这些反事实揭示了可能的模型偏差，并为错误分类提供了对比解释。通过对不同数据集进行综合评估，我们证明了 TRACER 比现有方法更有效，并展示了其在创建高度压缩但准确的模型方面的潜力，说明了其在理解和优化 DNN 方面的双重多功能性。