LLM2D

摘要

稀疏自动编码器（SAEs）已成为将大型语言模型（LLMs）的激活分解为人类可解释的潜在特征的一种很有前景的方法。本文提出了两个问题。首先，SAEs 在多大程度上提取了单义且可解释的潜在特征？其次，改变 SAE 的稀疏性或大小在多大程度上影响了单义性/可解释性？通过在一个简单的首字母识别任务中研究这些问题，在这个任务中我们能够完全访问词汇表中所有标记的真实标签，我们能够提供比之前调查更详细的信息。至关重要的是，我们识别出一种称为特征吸收的特征分裂问题，在这种问题中，看似单义的潜在特征在它们明显应该触发的情况下却未能触发。我们的调查表明，改变 SAE 的大小或稀疏性不足以解决这个问题，并且存在需要解决的更深层的概念问题。