LLM2D

摘要

一种提高网络可解释性的方法是通过聚类性，即把模型分成可以独立研究的不相交的集群。我们发现预训练模型高度不可聚类，因此使用“交织损失”函数训练模型，使其更模块化，该函数鼓励形成非交互集群。使用自动可解释性度量，我们表明我们的方法找到了为 CIFAR-10 标签学习不同、不相交且更小电路的集群。我们的方法为使神经网络更容易解释提供了有希望的方向。