摘要
arXiv:2502.04878v1 交叉类型
摘要:机制可解释性的共同目标是将神经网络的激活分解为特征:模型计算出的输入的可解释属性。稀疏自编码器(SAEs)是寻找这些特征在大语言模型(LLMs)中的流行方法,有人认为它们可以用来找到一组“标准”的单元:一个独特且完整的原子特征列表。我们通过两种新颖的技术对此信念提出质疑:SAE缝合以显示它们是不完整的,以及元SAE以显示它们不是原子的。SAE缝合涉及到将较大的SAE中的潜在变量插入到较小的SAE中,或交换它们。较大的SAE中的潜在变量可以分为两类:新颖潜在变量,当添加到较小的SAE时能提高性能,表明它们捕捉到了新颖信息;重建潜在变量,可以替换较小的SAE中具有类似行为的相应潜在变量。存在新颖特征表明较小的SAE是不完整的。使用元SAE(在另一个SAE的解码矩阵上训练的SAE)我们发现,SAE中的潜在变量通常分解为较小SAE中潜在变量的组合,显示较大的SAE潜在变量不是原子的。这些分解往往是可解释的;例如,代表“爱因斯坦”的潜在变量分解为“科学家”、“德国”和“著名人物”。即使SAE未能找到分析的标准单元,它们仍然可能成为有用的工具。我们建议未来的研究要么寻求不同方法来识别此类单元,要么实用地选择适合其任务的SAE大小。我们提供了一个交互式仪表板来探索元SAE:https://metasaes.streamlit.app/