LLM2D

摘要

稀疏自编码器（SAEs）已成为将大型语言模型（LLMs）的激活分解为人类可解释的潜在表示的有前途的方法。本文提出两个问题。首先，SAEs在多大程度上提取了单义且可解释的潜在表示？其次，改变SAE的稀疏性或大小对单义性/可解释性有多大影响？通过在一个简单的首字母识别任务中进行研究，我们能够完全访问词汇表中所有标记的真实标签，从而提供比先前研究更详细的分析。关键的是，我们识别出一种称为特征吸收的问题形式，其中看似单义的潜在表示在明显应该触发的情况下未能触发。我们的研究表明，改变SAE的大小或稀疏性不足以解决这一问题，并且存在更深层次的概念问题需要解决。