LLM2D
评估解释:一种机制可解释性解释美德框架——奇怪的科学第一部分.ii
Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability -- The Strange Science Part I.ii
作者: Kola Ayonrinde, Louis Jaburi
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.01372v1

摘要

arXiv:2505.01372v1 跨越类型:交叉 摘要:机制可解释性(MI)旨在通过因果解释来理解神经网络。尽管MI有许多生成解释的方法,但由于缺乏评价解释的通用方法,进展一直受限。在这里,我们分析了基本问题:“什么是好的解释?”我们介绍了一种多元解释美德框架,该框架借鉴了科学哲学中的四个视角——贝叶斯视角、库恩视角、德国视角和法则视角,以系统地评估和改进MI中的解释。我们发现,紧凑证明考虑到许多解释美德,因此是一个有前途的方法。由我们框架暗示的富有成效的研究方向包括(1)明确定义解释的简洁性,(2)注重统一解释,以及(3)为神经网络推导普遍原则。改进的MI方法增强了我们监控、预测和引导AI系统的能 力。