摘要
arXiv:2502.11603v1 Announce Type: cross
摘要:大规模语言模型(LLMs)展示了强大的自然语言处理能力,但也继承并放大了社会偏见,包括性别偏见,这引发了公平性方面的担忧。现有的去偏见方法面临显著的局限性:参数调整需要访问模型权重,基于提示的方法通常会降低模型实用性,而基于优化的技术缺乏普适性。为了解决这些问题,我们提出了DR.GAP(示范与推理以实现性别意识提示),这是一种自动化且模型无关的方法,可以在减轻性别偏见的同时保持模型性能。DR.GAP 选择揭示偏见的示例并生成结构化推理,以指导模型产生更加公允的回应。在多种LLM(GPT-3.5、Llama3和Llama2-Alpaca)上的核心ference解析和问答任务的广泛实验表明,其有效、普适和鲁棒性。DR.GAP 可以泛化到视觉语言模型(VLMs),实现显著的偏见降低。