摘要
arXiv:2405.15756v3 通知类型: 替换-交叉
摘要:解开多义神经元是目前许多大型语言模型可解释性方法的核心。在这里,我们试图研究解纠缠如何用于理解性能,特别是在密集权重化,这是一种主流的后训练优化技术。我们提出了一种新的衡量神经元纠缠的新方法:神经元输出分布与高斯分布的瓦尔登距离。此外,我们展示了每个LLM线性层中存在少量高度纠缠的“瓦尔登神经元”,这些神经元的输出分布高度非高斯,它们在映射相似输入到不同输出方面发挥着作用,并对模型准确性产生显著影响。为研究这些现象,我们提出了一种新的实验框架来解开多义神经元。该框架将每一层的输入分开,创建一个专家混合体,其中每个神经元的输出由瓦尔登距离较小的神经元计算,这些神经元在稀疏化而不重新训练的情况下能更好地保持准确性。我们提供了强有力的证据表明,这是因为稀疏专家的混合有效地解纠缠了单个神经元的输入-输出关系,特别是那些难以纠缠的瓦尔登神经元。