LLM2D

摘要

arXiv:2210.01892v4 公告类型: replace-cross 摘要：神经网络中的单个神经元通常表示多种无关特征的混合。这一现象称为多语义性，可能会使对神经网络的解释变得更加困难，因此我们旨在了解其原因。我们提议通过特征的“容量”这一视角来理解这一现象，其中特征容量是指每个特征在嵌入空间中占用的分数维度。我们展示了在一种玩具模型中，最优的容量分配往往会单语义性地表示最重要特征，多语义性地表示较不重要的特征（按照其对损失的影响程度成比例），并完全忽略最不重要的特征。多语义性在输入具有较高的峰度或稀疏性时更为普遍，并且在不同架构中出现的频率不同。在最优容量分配的基础上，我们进一步研究嵌入空间的几何结构。我们发现了一种块半正交结构，不同模型中的块大小有所不同，突出了模型架构对神经元解释性的影响。