LLM2D

摘要

arXiv:2505.01372v1 跨越类型：交叉摘要：机制可解释性（MI）旨在通过因果解释来理解神经网络。尽管MI有许多生成解释的方法，但由于缺乏评价解释的通用方法，进展一直受限。在这里，我们分析了基本问题：“什么是好的解释？”我们介绍了一种多元解释美德框架，该框架借鉴了科学哲学中的四个视角——贝叶斯视角、库恩视角、德国视角和法则视角，以系统地评估和改进MI中的解释。我们发现，紧凑证明考虑到许多解释美德，因此是一个有前途的方法。由我们框架暗示的富有成效的研究方向包括（1）明确定义解释的简洁性，（2）注重统一解释，以及（3）为神经网络推导普遍原则。改进的MI方法增强了我们监控、预测和引导AI系统的能力。