LLM2D
通过公平感知集成方法对文本安全分类器进行去偏
Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble
作者: Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2409.13705v2

摘要

大型语言模型 (LLM) 的日益普及需要高效的护栏,以确保 LLM 输入和输出的安全性。当这些安全措施在不平衡的数据上训练时,它们可能会学习社会偏见。我们提出了一种轻量级的后处理方法,用于减轻闭源文本安全分类器中的反事实公平性。我们的方法涉及构建一个集成,该集成不仅优于输入分类器并与策略对齐,而且还充当去偏置正则化器。我们引入了两个阈值无关的指标来评估模型的反事实公平性,并展示了将这些指标与公平数据重新加权 (FDW) 相结合如何帮助减轻偏见。我们创建了一个扩展的 Open AI 数据集和一个基于用户提示的新模板化 LLM 生成的数据集,这两个数据集在身份群体之间反事实平衡,涵盖了安全性的四个关键领域;我们将努力公开发布这些数据集。我们的结果表明,我们的方法在对模型性能影响最小的情况下提高了反事实公平性。