LLM2D
神经网络分类器的符号梯度闭式解释
Closed-Form Interpretation of Neural Network Classifiers with Symbolic Gradients
作者: Sebastian Johann Wetzel
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2401.04978v2

摘要

我提出了一种统一框架,用于寻找人工神经网络中任何单个神经元的闭合形式解释。利用该框架,我展示了如何解释神经网络分类器,以揭示其决策边界中编码的概念的闭合形式表达式。与基于神经网络的回归相反,对于分类而言,即使神经网络本身基于可以写成闭合形式方程式的量进行分类,一般也不可能将神经网络表示为符号方程式的形式。解释框架基于将训练后的神经网络嵌入到编码相同概念的函数等价类中。我通过在等价类和由符号搜索空间定义的人类可读方程之间寻找交集来解释这些神经网络。该方法不仅限于分类器或完整的神经网络,可以应用于隐藏层或潜在空间中的任意神经元。