摘要
arXiv:2502.07771v1 跨领域通知类型:交叉
摘要:我们采用模型修剪的方法来探索大语言模型(LLMs)如何概念化种族偏见,以及是否存在一种可泛化的缓解此类偏见的策略。我们的分析揭示了几个新颖的见解。我们发现,修剪可以是一种有效的方法来减少偏见,同时显著增加异常模型行为。基于神经元的修剪策略通常比修剪整个注意力头的方法表现更好。然而,我们的结果也表明,随着修剪策略变得更为泛化,这两种方法的有效性都会迅速下降。例如,一个在金融决策背景下移除种族偏见的模型在商业交易中的偏见缓解表现出明显的泛化不足。总体而言,我们的分析表明,语言模型内部种族偏见只部分地作为一种泛化概念存在。这些偏见的另一部分高度依赖于具体情境,这表明泛化缓解策略可能效果有限。我们的发现对围绕AI的法律框架具有重要意义。特别是,这表明有效的缓解策略应该包括在特定应用场景下部署模型的责任分配。