LLM2D

摘要

我提出了一种统一框架，用于寻找人工神经网络中任何单个神经元的闭合形式解释。利用该框架，我展示了如何解释神经网络分类器，以揭示其决策边界中编码的概念的闭合形式表达式。与基于神经网络的回归相反，对于分类而言，即使神经网络本身基于可以写成闭合形式方程式的量进行分类，一般也不可能将神经网络表示为符号方程式的形式。解释框架基于将训练后的神经网络嵌入到编码相同概念的函数等价类中。我通过在等价类和由符号搜索空间定义的人类可读方程之间寻找交集来解释这些神经网络。该方法不仅限于分类器或完整的神经网络，可以应用于隐藏层或潜在空间中的任意神经元。