LLM2D
模块化训练的神经网络有助于解释性
Modular Training of Neural Networks aids Interpretability
作者: Satvik Golechha, Maheep Chaudhary, Joan Velja, Alessandro Abate, Nandi Schoots
发布日期: 2/5/2025
arXiv ID: 2502.02470

摘要

arXiv:2502.02470v1 类型:交叉 摘要:通过聚类性来提高神经网络可解释性的方法是将模型分解成独立研究的不相交簇。我们定义了一个聚类性的度量,并通过谱图聚类展示了预训练模型形成了高度交织的簇。因此,我们使用一种称为“聚类性损失”函数来训练模型,使其尽可能形成互不干扰的簇。通过自动化可解释性技术,我们展示了我们的方法如何帮助训练出更模块化且学习不同的、不相交且更小电路的模型。我们研究了在MNIST和CIFAR上训练的CNN、在模块化加法上训练的小型变压器以及语言模型。我们的方法为训练学习更简单函数且更易于解释的神经网络提供了前景。