摘要
arXiv:2505.01372v1 跨越类型:交叉
摘要:机制可解释性(MI)旨在通过因果解释来理解神经网络。尽管MI有许多生成解释的方法,但由于缺乏评价解释的通用方法,进展一直受限。在这里,我们分析了基本问题:“什么是好的解释?”我们介绍了一种多元解释美德框架,该框架借鉴了科学哲学中的四个视角——贝叶斯视角、库恩视角、德国视角和法则视角,以系统地评估和改进MI中的解释。我们发现,紧凑证明考虑到许多解释美德,因此是一个有前途的方法。由我们框架暗示的富有成效的研究方向包括(1)明确定义解释的简洁性,(2)注重统一解释,以及(3)为神经网络推导普遍原则。改进的MI方法增强了我们监控、预测和引导AI系统的能 力。