LLM2D

摘要

arXiv:2412.18053v2 宣告类型: 替换交叉摘要：尽管预训练语言模型(PLMs)中的前向神经元可以存储知识，且它们对影响模型输出的重要性已被研究，但现有工作主要集中在找到一小部分神经元并分析其相对重要性上。然而，激活值在塑造输出方面的作用的全局定量角色仍然不清楚，这阻碍了在知识编辑等应用中的进一步发展。我们的研究首先调查了神经元激活值与模型输出之间的数值关系，并通过知识探查数据集中的神经元干预，发现了它们之间的全局线性关系。我们将这种线性关系的梯度称为神经元经验梯度(NEG)，并引入了NeurGrad，这是一种准确且高效的计算NEG的方法。NeurGrad使我们能够对PLMs中的所有神经元进行定量分析，从而加深我们对神经元可控制性的理解。此外，我们探索了NEG在通过技能神经元探查跨越多种提示的语言技能方面的表示能力。通过对MCEval8k进行实验，一个涵盖各种体裁的多项选择知识基准，验证了NEG的表示能力。数据和代码已发布。