LLM2D
模块化训练的神经网络有助于可解释性
Modular Training of Neural Networks aids Interpretability
作者: Satvik Golechha, Maheep Chaudhary, Joan Velja, Alessandro Abate, Nandi Schoots
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.02470v2

摘要

arXiv:2502.02470v2 宣告类型:替换交叉 摘要:通过聚类提高神经网络可解释性的方法是将模型拆分成可以独立研究的不相交聚类。我们定义了一个聚类度量,并展示了预训练模型通过谱图聚类形成了高度交织的聚类。因此,我们使用一种鼓励形成非交互聚类的“聚类度量损失”函数来训练更模块化的模型。利用自动化可解释性技术,我们展示了我们的方法可以帮助训练更模块化、学习不同且独立的较小电路的模型。我们研究了在MNIST和CIFAR上训练的CNN、在模块加法上训练的小型变压器以及语言模型。我们的方法为训练学习更简单函数且更易解释的神经网络提供了一个有前景的方向。