摘要
arXiv:2411.10397v2 公告类型: 交叉替换
摘要:稀疏自编码器(Sparse Autoencoders, SAEs)是一种通过学习神经网络内部激活的稀疏和超完备分解来提取神经网络表示的有效方法。然而,传统的SAEs仅考虑激活值,而不考虑这些激活对下游计算的影响。这限制了可用于学习特征的信息,并使自编码器偏向忽略那些虽有小激活值但强烈影响模型输出的特征。为了应对这一问题,我们引入了梯度自编码器(Gradient SAEs, g-SAEs),它通过在选择前K项时利用输入激活的梯度来修改$k$-稀疏自编码器架构中的TopK激活函数。对于给定的稀疏度水平,g-SAEs在传递通过网络时生成的重构更忠于原始网络性能。此外,我们发现证据表明,g-SAEs学习到的潜在特征在平均意义上更能有效地引导模型在任意上下文中的行为。通过考虑激活的下游影响,我们的方法利用了神经网络特征的双重性质,即作为回顾性的表示和展望性的行动。尽管以前的方法主要聚焦于前者来发现特征,g-SAEs代表了一种朝着考虑后者迈出的步骤。