摘要
arXiv:2210.01892v4 公告类型: replace-cross
摘要:神经网络中的单个神经元通常表示多种无关特征的混合。这一现象称为多语义性,可能会使对神经网络的解释变得更加困难,因此我们旨在了解其原因。我们提议通过特征的“容量”这一视角来理解这一现象,其中特征容量是指每个特征在嵌入空间中占用的分数维度。我们展示了在一种玩具模型中,最优的容量分配往往会单语义性地表示最重要特征,多语义性地表示较不重要的特征(按照其对损失的影响程度成比例),并完全忽略最不重要的特征。多语义性在输入具有较高的峰度或稀疏性时更为普遍,并且在不同架构中出现的频率不同。在最优容量分配的基础上,我们进一步研究嵌入空间的几何结构。我们发现了一种块半正交结构,不同模型中的块大小有所不同,突出了模型架构对神经元解释性的影响。