摘要
arXiv:2503.24277v1 交叉公告类型
摘要:稀疏自编码器(SAE)已成为现代机制可解释性的主力军,但使用顶级-$k$风格激活函数的领先SAE方法缺乏选择超参数$k$的理论依据。SAE基于线性表示假设(LRH),该假设假定大型语言模型(LLM)的表示是线性编码的,超级叠加假设(SH)则认为模型中的特征数可以超过其维度。我们证明了,根据LRH和SH的正式定义,稀疏特征向量(SAE学习的LLM密集嵌入的潜在表示的大小)可以使用相应的密集向量进行近似,并具有闭式误差界。为了可视化这一点,我们提出了ZF图,它揭示了LLM隐藏嵌入和SAE特征向量之间的一种未知关系,使我们能够对预训练SAE的特征向量在给定输入下的过度激活或欠激活程度进行首次经验测量。相应地,我们引入了近似特征激活(AFA),它近似了地面真实稀疏特征向量的大小,并提出了一个新的评估度量,该度量源自AFA,用于评估输入和激活之间的对齐程度。我们还利用AFA引入了一个新的SAE架构,即top-AFA SAE,导致SAE具有以下特点:(a)更符合理论依据;(b)消除了调整SAE稀疏超参数的需要。最后,我们实证证明,top-AFA SAE在重建损失方面与最先进的顶级-$k$ SAE相当,而无需调整超参数$k$。我们的代码可在以下链接获取:https://github.com/SewoongLee/top-afa-sae。