LLM2D

摘要

arXiv:2501.16374v2 宣告类型: replace-cross 摘要: 超position指的是在单个神经元中编码多个特征的表示，这是深度神经网络中常见的现象。这一特性使得神经元能够结合和表示多个特征，从而使模型能够捕捉复杂信息并处理复杂任务。尽管模型表现有潜力，但其可解释性却有所减弱。本文提出了一种通过正则化特征超position来增强模型可解释性的新方法。我们引入了SAFR，该方法通过在损失函数中应用正则化来促进重要令牌的一义性表示，同时鼓励相关令牌对的多元性表示，其中重要令牌和相关令牌对分别通过VMASK和注意力权重来识别。我们在两个分类任务上使用变压器模型评估了SAFR。实验结果表明，SAFR在不牺牲预测性能的前提下，有效提高了模型的可解释性。此外，SAFR通过可视化中间层内的神经元分配提供了解释。