摘要
arXiv:2501.06254v2 宣告类型: 交叉替换
摘要:稀疏自动编码器(SAEs)作为提高大型语言模型(LLMs)可解释性的有希望工具,引起了极大的关注。它们通过将多义神经元的复杂叠加映射为单义特征,并构建一个稀疏词汇字典来实现这一目标。然而,传统的性能指标如均方误差和L0稀疏性忽略了一种对SAEs进行评价的方法——即SAEs是否能够在保留词汇语义关系的同时,学习到可解释的单义特征。例如,并不清楚从中学到的稀疏特征能否区分一个词的多种含义。在本文中,我们提出了针对SAEs的评估套件,通过关注多义词来分析单义特征的质量。我们的发现表明,为了改进均方误差-L0帕特洛摆线,开发的SAEs可能会混淆可解释性,这并不一定能够更有效地提取单义特征。对多义词的SAEs分析还可以揭示LLMs的内部机制;更深层的层和注意模块有助于区分一个词中的多义性。我们聚焦于语义的评估为研究多义性和现有的SAE目标提供了新的见解,并有助于开发更实用的SAEs。