LLM2D
Home
Arxiv
返回列表
面向模块化的神经网络训练提升可解释性
Training Neural Networks for Modularity aids Interpretability
发布日期:
9/25/2024
arXiv ID:
oai:arXiv.org:2409.15747v1
摘要
一种提高网络可解释性的方法是通过聚类性,即把模型分成可以独立研究的不相交的集群。我们发现预训练模型高度不可聚类,因此使用“交织损失”函数训练模型,使其更模块化,该函数鼓励形成非交互集群。使用自动可解释性度量,我们表明我们的方法找到了为 CIFAR-10 标签学习不同、不相交且更小电路的集群。我们的方法为使神经网络更容易解释提供了有希望的方向。
查看原文
下载 PDF