LLM2D

摘要

语言模型通常从其训练数据中继承社会偏见。许多技术已被提出用于在预训练和微调阶段减轻这些偏见。然而，在特定任务上微调预训练的去偏语言模型可能会重新将偏见引入模型。此外，现有的针对特定任务的去偏方法要么 (i) 需要受保护属性（例如，年龄、种族或政治观点）的标签，而这些标签通常不可用，要么 (ii) 依赖于偏见指标，这限制了它们在性别去偏方面的适用性，因为它们依赖于性别特异词语。为了解决这个问题，我们提出了一种基于嵌入类间方差的新型去偏正则化技术。至关重要的是，我们的方法不需要属性标签，并且针对任何属性，从而解决了现有去偏方法的缺点。我们在编码器语言模型和三个数据集上的实验表明，我们的方法优于现有的依赖于目标属性标签的强大去偏基线，同时在目标任务上保持了性能。