摘要
arXiv:2412.18053v2 宣告类型: 替换交叉
摘要:尽管预训练语言模型(PLMs)中的前向神经元可以存储知识,且它们对影响模型输出的重要性已被研究,但现有工作主要集中在找到一小部分神经元并分析其相对重要性上。然而,激活值在塑造输出方面的作用的全局定量角色仍然不清楚,这阻碍了在知识编辑等应用中的进一步发展。我们的研究首先调查了神经元激活值与模型输出之间的数值关系,并通过知识探查数据集中的神经元干预,发现了它们之间的全局线性关系。我们将这种线性关系的梯度称为神经元经验梯度(NEG),并引入了NeurGrad,这是一种准确且高效的计算NEG的方法。NeurGrad使我们能够对PLMs中的所有神经元进行定量分析,从而加深我们对神经元可控制性的理解。此外,我们探索了NEG在通过技能神经元探查跨越多种提示的语言技能方面的表示能力。通过对MCEval8k进行实验,一个涵盖各种体裁的多项选择知识基准,验证了NEG的表示能力。数据和代码已发布。