LLM2D
一种关于机械解释可解释性的数学哲学—— strange science 第一部分.i
A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i
作者: Kola Ayonrinde, Louis Jaburi
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00808v1

摘要

arXiv:2505.00808v1 宣告类型: 横向 摘要:机制可解释性旨在通过因果解释来理解神经网络。我们提出了解释观假设:机制可解释性研究是理解模型的一种原则性方法,因为神经网络中包含隐含的解释,这些解释可以被提取和理解。因此,我们证明了解释忠实度是一个确定解释与模型匹配程度的评估是合理的。我们提出了机制可解释性(MI)的定义,即在模型层面、实体层面、因果机制层面及可证伪地解释神经网络的做法,使得我们能够区分机制可解释性与其他可解释性范式,并详细阐述机制可解释性的固有限制。我们提出了解释乐观原则这一假设,并 argue 认为这是机制可解释性成功的一个必要先决条件。