摘要
稀疏自编码器(SAEs)已成为将大型语言模型(LLMs)的激活分解为人类可解释的潜在表示的有前途的方法。本文提出两个问题。首先,SAEs在多大程度上提取了单义且可解释的潜在表示?其次,改变SAE的稀疏性或大小对单义性/可解释性有多大影响?通过在一个简单的首字母识别任务中进行研究,我们能够完全访问词汇表中所有标记的真实标签,从而提供比先前研究更详细的分析。关键的是,我们识别出一种称为特征吸收的问题形式,其中看似单义的潜在表示在明显应该触发的情况下未能触发。我们的研究表明,改变SAE的大小或稀疏性不足以解决这一问题,并且存在更深层次的概念问题需要解决。