LLM2D
通过知识图谱增强训练检测和减轻LLM中的偏见
Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training
作者: Rajeev Kumar, Harishankar Kumar, Kumari Shalini
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00310v1

摘要

arXiv:2504.00310v1 宣告类型: cross 摘要: 大型语言模型通过其令人惊讶的能力来理解和生成类人的文本,彻底改变了自然语言处理。然而,这些模型中的许多继承并进一步放大了其训练数据中存在的偏差,引发了伦理和公平性的关注。检测和减轻这些偏差对于确保大型语言模型在其多样化的领域中负责任和公正地行动至关重要。本文探讨了知识图谱增强训练(KGAT)作为一种减轻大型语言模型偏差的新方法。通过使用来自真实世界知识图谱的结构化领域特定知识,我们提高了模型的理解能力并减少了有偏的输出。用于偏差评估的公共数据集包括 Gender Shades、Bias in Bios 和 FairFace,而诸如人口统计平等等价机会等度量标准促进了严格的检测。我们还实施了针对性的缓解策略来纠正有偏的关联,导致有偏输出的显著下降,并改善了偏度指标。配以现实世界的数据集和知识图谱,我们的框架既可扩展又有效,为在敏感和高风险应用中负责任部署铺平了道路。