LLM2D
SAFR:神经元重组以提高可解释性
SAFR: Neuron Redistribution for Interpretability
作者: Ruidi Chang, Chunyuan Deng, Hanjie Chen
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2501.16374v2

摘要

arXiv:2501.16374v2 宣告类型: replace-cross 摘要: 超position指的是在单个神经元中编码多个特征的表示,这是深度神经网络中常见的现象。这一特性使得神经元能够结合和表示多个特征,从而使模型能够捕捉复杂信息并处理复杂任务。尽管模型表现有潜力,但其可解释性却有所减弱。本文提出了一种通过正则化特征超position来增强模型可解释性的新方法。我们引入了SAFR,该方法通过在损失函数中应用正则化来促进重要令牌的一义性表示,同时鼓励相关令牌对的多元性表示,其中重要令牌和相关令牌对分别通过VMASK和注意力权重来识别。我们在两个分类任务上使用变压器模型评估了SAFR。实验结果表明,SAFR在不牺牲预测性能的前提下,有效提高了模型的可解释性。此外,SAFR通过可视化中间层内的神经元分配提供了解释。