LLM2D
A 代表吸收:研究稀疏自动编码器中的特征分裂和吸收
A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
作者: David Chanin, James Wilken-Smith, Tom\'a\v{s} Dulka, Hardik Bhatnagar, Joseph Bloom
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.14507v3

摘要

稀疏自动编码器(SAEs)已成为将大型语言模型(LLMs)的激活分解为人类可解释的潜在特征的一种很有前景的方法。本文提出了两个问题。首先,SAEs 在多大程度上提取了单义且可解释的潜在特征?其次,改变 SAE 的稀疏性或大小在多大程度上影响了单义性/可解释性?通过在一个简单的首字母识别任务中研究这些问题,在这个任务中我们能够完全访问词汇表中所有标记的真实标签,我们能够提供比之前调查更详细的信息。至关重要的是,我们识别出一种称为特征吸收的特征分裂问题,在这种问题中,看似单义的潜在特征在它们明显应该触发的情况下却未能触发。我们的调查表明,改变 SAE 的大小或稀疏性不足以解决这个问题,并且存在需要解决的更深层的概念问题。