LLM2D
A代表吸收:研究稀疏自编码器中的特征分裂与吸收
A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14507v2

摘要

稀疏自编码器(SAEs)已成为将大型语言模型(LLMs)的激活分解成人类可解释潜变量的有前途的方法。在本文中,我们提出了两个问题。首先,SAEs在多大程度上提取了单义且可解释的潜变量?其次,改变SAE的稀疏性或大小在多大程度上影响了单义性/可解释性?通过在一个简单的首字母识别任务中研究这些问题,我们可以详细说明每个词汇中的所有标记的真实标签。关键的是,我们识别出一种我们称之为特征吸收的问题形式,在这种情况下,表面上是单义的潜变量在明显应该激活的情况下却未能激活。我们的研究表明,改变SAE的大小或稀疏性不足以解决这个问题,存在需要解决的更深层次的概念性问题。