LLM2D

摘要

arXiv:2405.15756v3 通知类型: 替换-交叉摘要：解开多义神经元是目前许多大型语言模型可解释性方法的核心。在这里，我们试图研究解纠缠如何用于理解性能，特别是在密集权重化，这是一种主流的后训练优化技术。我们提出了一种新的衡量神经元纠缠的新方法：神经元输出分布与高斯分布的瓦尔登距离。此外，我们展示了每个LLM线性层中存在少量高度纠缠的“瓦尔登神经元”，这些神经元的输出分布高度非高斯，它们在映射相似输入到不同输出方面发挥着作用，并对模型准确性产生显著影响。为研究这些现象，我们提出了一种新的实验框架来解开多义神经元。该框架将每一层的输入分开，创建一个专家混合体，其中每个神经元的输出由瓦尔登距离较小的神经元计算，这些神经元在稀疏化而不重新训练的情况下能更好地保持准确性。我们提供了强有力的证据表明，这是因为稀疏专家的混合有效地解纠缠了单个神经元的输入-输出关系，特别是那些难以纠缠的瓦尔登神经元。