摘要
稀疏自动编码器 (SAEs) 已成为将大型语言模型 (LLMs) 的激活分解为人类可解释的潜在变量的一种很有前景的方法。本文提出了两个问题。首先,SAEs 在多大程度上提取了单义且可解释的潜在变量?其次,改变 SAE 的稀疏性或大小在多大程度上影响单义性/可解释性?通过在一个简单的首字母识别任务中研究这些问题,在这个任务中,我们可以完全访问词汇中所有词元的真值标签,我们能够提供比之前调查更详细的信息。至关重要的是,我们发现了一种称为特征吸收的特征分裂问题,其中看似单义的潜在变量在它们应该激发的情况下却未能激发。我们的研究表明,改变 SAE 的大小或稀疏性不足以解决这个问题,并且存在需要解决的更深层的概念问题。