LLM2D
Home
Arxiv
返回列表
GRADIEND:神经网络内的单义特征学习及其在 Transformer 模型性别去偏中的应用
GRADIEND: Monosemantic Feature Learning within Neural Networks Applied to Gender Debiasing of Transformer Models
作者:
Jonathan Drechsel, Steffen Herbold
发布日期:
2/4/2025
arXiv ID:
oai:arXiv.org:2502.01406v1
摘要
arXiv:2502.01406v1 交叉类型:公告 摘要:人工智能系统经常表现出并放大社会偏见,包括性别偏见,这在关键领域可能导致有害的后果。本研究引入了一种新颖的编码-解码方法,该方法利用模型梯度来学习一个单一的多义性特征神经元,编码性别信息。我们展示了我们的方法可以用于减轻基于变换器的语言模型的偏见,同时保持其他功能。我们展示了我们的方法在多个基于编码器的模型中的有效性,并强调其在更广泛的应用中的潜力。
查看原文
下载 PDF