摘要
arXiv:2504.00194v1 Announce Type: cross
摘要:机制可解释性大多集中在理解大型神经网络的激活空间。然而,基于激活空间的方法很少揭示用于计算特征的底层电路。为了更好地理解模型所使用的电路,我们引入了一种新的分解方法,称为局部损失景观分解(L3D)。L3D 识别一组低秩子网络:参数空间中的某些方向可以重建任意样本的输出与参考输出向量之间的损失梯度。我们设计了一系列逐步更具有挑战性的玩具模型,具有明确定义的子网络,并展示了 L3D 几乎可以完美地恢复相应的子网络。此外,我们研究了将模型沿给定子网络的方向扰动仅影响相关样本子集的程度。最后,我们将 L3D 应用于实际的变换器模型和卷积神经网络,展示了其在参数空间识别可解释和相关的电路的潜力。