LLM2D

摘要

arXiv:2502.01406v1 交叉类型：公告摘要：人工智能系统经常表现出并放大社会偏见，包括性别偏见，这在关键领域可能导致有害的后果。本研究引入了一种新颖的编码-解码方法，该方法利用模型梯度来学习一个单一的多义性特征神经元，编码性别信息。我们展示了我们的方法可以用于减轻基于变换器的语言模型的偏见，同时保持其他功能。我们展示了我们的方法在多个基于编码器的模型中的有效性，并强调其在更广泛的应用中的潜力。