LLM2D

摘要

大型语言模型 (LLM) 的日益普及需要高效的护栏，以确保 LLM 输入和输出的安全性。当这些安全措施在不平衡的数据上训练时，它们可能会学习社会偏见。我们提出了一种轻量级的后处理方法，用于减轻闭源文本安全分类器中的反事实公平性。我们的方法涉及构建一个集成，该集成不仅优于输入分类器并与策略对齐，而且还充当去偏置正则化器。我们引入了两个阈值无关的指标来评估模型的反事实公平性，并展示了将这些指标与公平数据重新加权 (FDW) 相结合如何帮助减轻偏见。我们创建了一个扩展的 Open AI 数据集和一个基于用户提示的新模板化 LLM 生成的数据集，这两个数据集在身份群体之间反事实平衡，涵盖了安全性的四个关键领域；我们将努力公开发布这些数据集。我们的结果表明，我们的方法在对模型性能影响最小的情况下提高了反事实公平性。