LLM2D
多语言模型去偏框架
A Multi-LLM Debiasing Framework
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13884v1

摘要

arXiv:2409.13884v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 是具有巨大潜力造福社会的强大工具,然而,它们也表现出加剧社会不平等的偏见。尽管在数据增强、零样本提示和模型微调等方面取得了显著的偏见缓解技术进展,但偏见仍然持续存在,包括那些可能逃过人类检测的微妙偏见。最近的研究表明,人们对多LLM方法的兴趣日益增长,这些方法已被证明在提高LLM的推理质量和事实性方面是有效的。基于这一方法,我们提出了一种新颖的多LLM去偏框架,旨在减少LLM中的偏见。我们的工作首次引入并评估了该框架内的两种不同去偏方法:集中式方法,其中对话由单一的中央LLM协调,以及分散式方法,其中所有模型直接通信。我们的研究结果表明,我们的多LLM框架显著减少了LLM中的偏见,在多个社会群体中优于基线方法。