摘要
arXiv:2505.00190v1 宣告类型: cross
摘要: 稀疏自动编码器(SAEs)[@bricken2023monosemanticity, gao2024scalingevaluating sparseautoencoders] 依赖于聚类学习,以无监督的方式在大规模神经网络中提取可解释的特征,应用于表示工程和信息检索。然而,SAEs 在计算上较为昂贵 [@lieberum2024gemmascopeopensparse],特别是在需要不同大小的多个 SAE 时。我们发现, vanilla SAEs 中的字典重要性遵循幂律。我们在语言建模任务上比较了基于 SAE 子集剪枝的渐进编码与联合训练嵌套 SAEs(所谓的“马特罗什卡”SAEs [@bussmann2024learning, nabeshima2024Matryoshka])之间的差异。我们发现“马特罗什卡”SAEs 在重构损失和重捕获语言建模损失方面较低,并且表示相似度更高。然而,剪枝后的 vanilla SAEs 更具有可解释性。我们讨论了这种权衡的起源和意义。