LLM2D

摘要

稀疏自动编码器 (SAEs) 已成为将大型语言模型 (LLMs) 的激活分解为人类可解释的潜在变量的一种很有前景的方法。本文提出了两个问题。首先，SAEs 在多大程度上提取了单义且可解释的潜在变量？其次，改变 SAE 的稀疏性或大小在多大程度上影响单义性/可解释性？通过在一个简单的首字母识别任务中研究这些问题，在这个任务中，我们可以完全访问词汇中所有词元的真值标签，我们能够提供比之前调查更详细的信息。至关重要的是，我们发现了一种称为特征吸收的特征分裂问题，其中看似单义的潜在变量在它们应该激发的情况下却未能激发。我们的研究表明，改变 SAE 的大小或稀疏性不足以解决这个问题，并且存在需要解决的更深层的概念问题。