LLM2D

摘要

稀疏自编码器（SAEs）已成为将大型语言模型（LLMs）的激活分解成人类可解释潜变量的有前途的方法。在本文中，我们提出了两个问题。首先，SAEs在多大程度上提取了单义且可解释的潜变量？其次，改变SAE的稀疏性或大小在多大程度上影响了单义性/可解释性？通过在一个简单的首字母识别任务中研究这些问题，我们可以详细说明每个词汇中的所有标记的真实标签。关键的是，我们识别出一种我们称之为特征吸收的问题形式，在这种情况下，表面上是单义的潜变量在明显应该激活的情况下却未能激活。我们的研究表明，改变SAE的大小或稀疏性不足以解决这个问题，存在需要解决的更深层次的概念性问题。