LLM2D

摘要

arXiv:2505.00190v1 宣告类型: cross 摘要: 稀疏自动编码器（SAEs）[@bricken2023monosemanticity, gao2024scalingevaluating sparseautoencoders] 依赖于聚类学习，以无监督的方式在大规模神经网络中提取可解释的特征，应用于表示工程和信息检索。然而，SAEs 在计算上较为昂贵 [@lieberum2024gemmascopeopensparse]，特别是在需要不同大小的多个 SAE 时。我们发现， vanilla SAEs 中的字典重要性遵循幂律。我们在语言建模任务上比较了基于 SAE 子集剪枝的渐进编码与联合训练嵌套 SAEs（所谓的“马特罗什卡”SAEs [@bussmann2024learning, nabeshima2024Matryoshka]）之间的差异。我们发现“马特罗什卡”SAEs 在重构损失和重捕获语言建模损失方面较低，并且表示相似度更高。然而，剪枝后的 vanilla SAEs 更具有可解释性。我们讨论了这种权衡的起源和意义。