LLM2D

摘要

arXiv:2501.06254v2 宣告类型: 交叉替换摘要：稀疏自动编码器（SAEs）作为提高大型语言模型（LLMs）可解释性的有希望工具，引起了极大的关注。它们通过将多义神经元的复杂叠加映射为单义特征，并构建一个稀疏词汇字典来实现这一目标。然而，传统的性能指标如均方误差和L0稀疏性忽略了一种对SAEs进行评价的方法——即SAEs是否能够在保留词汇语义关系的同时，学习到可解释的单义特征。例如，并不清楚从中学到的稀疏特征能否区分一个词的多种含义。在本文中，我们提出了针对SAEs的评估套件，通过关注多义词来分析单义特征的质量。我们的发现表明，为了改进均方误差-L0帕特洛摆线，开发的SAEs可能会混淆可解释性，这并不一定能够更有效地提取单义特征。对多义词的SAEs分析还可以揭示LLMs的内部机制；更深层的层和注意模块有助于区分一个词中的多义性。我们聚焦于语义的评估为研究多义性和现有的SAE目标提供了新的见解，并有助于开发更实用的SAEs。