LLM2D

摘要

自然语言处理 (NLP) 中的偏见检测是一个重大挑战，尤其是在大型语言模型 (LLM) 在各个领域中应用越来越广泛的背景下。本文介绍了 GUS-Net，这是一种创新的偏见检测方法，它侧重于三种主要的偏见类型： (G)eneralizations（泛化）、(U)nfairness（不公平）和 (S)tereotypes（刻板印象）。GUS-Net 利用生成式 AI 和自动化代理来创建全面的合成数据集，从而实现强大的多标签标记分类。我们的方法通过整合预训练模型的上下文编码来增强传统的偏见检测方法，从而提高识别偏见实体的准确性和深度。通过大量的实验，我们证明了 GUS-Net 优于最先进的技术，在准确率、F1 分数和汉明损失方面取得了优异的性能。研究结果突出了 GUS-Net 在跨不同语境捕获各种偏见方面的有效性，使其成为文本中社会偏见检测的宝贵工具。这项研究为 NLP 中解决隐性偏见的持续努力做出了贡献，为未来在各个领域的研究和应用提供了途径。用于创建数据集和模型的 Jupyter 笔记本可在以下网址获取：https://github.com/Ethical-Spectacle/fair-ly/tree/main/resources。警告：本文包含有害语言的示例，建议读者谨慎阅读。