摘要
arXiv:2502.02470v1 Announce Type: cross
摘要:通过可聚类性提高神经网络可解释性的方法之一是将模型拆分为可独立研究的不相交聚类。我们定义了一个聚类性度量,并通过谱图聚类表明预训练模型形成了高度交织的聚类。因此,我们使用一种“聚类性损失”函数训练模型,该函数鼓励形成不相互作用的聚类。通过自动化可解释性技术,我们展示了我们的方法可以帮助训练更具模块性的模型,这些模型可以学习不同的、不相交的和更小的电路。我们研究了在MNIST和CIFAR上训练的CNN、在模块化加法上训练的小型变压器,以及语言模型。我们的方法为训练学习更简单函数且更容易解释的神经网络提供了有希望的方向。