LLM2D

摘要

arXiv:2502.04878v1 交叉类型摘要：机制可解释性的共同目标是将神经网络的激活分解为特征：模型计算出的输入的可解释属性。稀疏自编码器（SAEs）是寻找这些特征在大语言模型（LLMs）中的流行方法，有人认为它们可以用来找到一组“标准”的单元：一个独特且完整的原子特征列表。我们通过两种新颖的技术对此信念提出质疑：SAE缝合以显示它们是不完整的，以及元SAE以显示它们不是原子的。SAE缝合涉及到将较大的SAE中的潜在变量插入到较小的SAE中，或交换它们。较大的SAE中的潜在变量可以分为两类：新颖潜在变量，当添加到较小的SAE时能提高性能，表明它们捕捉到了新颖信息；重建潜在变量，可以替换较小的SAE中具有类似行为的相应潜在变量。存在新颖特征表明较小的SAE是不完整的。使用元SAE（在另一个SAE的解码矩阵上训练的SAE）我们发现，SAE中的潜在变量通常分解为较小SAE中潜在变量的组合，显示较大的SAE潜在变量不是原子的。这些分解往往是可解释的；例如，代表“爱因斯坦”的潜在变量分解为“科学家”、“德国”和“著名人物”。即使SAE未能找到分析的标准单元，它们仍然可能成为有用的工具。我们建议未来的研究要么寻求不同方法来识别此类单元，要么实用地选择适合其任务的SAE大小。我们提供了一个交互式仪表板来探索元SAE：https://metasaes.streamlit.app/