摘要
arXiv:2502.06809v1 宣告类型: cross
摘要:解释和控制大型语言模型(LLMs)的内部机制对于提高其可信度和实用性至关重要。近年来,努力主要集中在通过建立神经元和语义概念之间的离散映射来识别和操作神经元上。然而,这种映射难以处理LLMs中存在的固有的多义性,其中单个神经元编码多个不同的概念。这使得精确控制变得棘手,并且使下游干预复杂化。通过对多个文本分类数据集中的编码器和解码器基大型语言模型进行深入分析,我们发现虽然单个神经元编码多个概念,但它们在概念之间的激活程度以独特的、类似高斯的模式变化。基于这一洞见,我们引入了NeuronLens,这是一种新型的范围基解释与操作框架,可以提供神经元激活分布的更精细视图,以在神经元内部定位概念归因。广泛的实证评估表明,NeuronLens大幅减少了无意中的干扰,同时保持了对目标概念进行精确操作的能力,优于现有方法。