LLM2D

摘要

arXiv:2502.11603v1 Announce Type: cross 摘要：大规模语言模型（LLMs）展示了强大的自然语言处理能力，但也继承并放大了社会偏见，包括性别偏见，这引发了公平性方面的担忧。现有的去偏见方法面临显著的局限性：参数调整需要访问模型权重，基于提示的方法通常会降低模型实用性，而基于优化的技术缺乏普适性。为了解决这些问题，我们提出了DR.GAP（示范与推理以实现性别意识提示），这是一种自动化且模型无关的方法，可以在减轻性别偏见的同时保持模型性能。DR.GAP 选择揭示偏见的示例并生成结构化推理，以指导模型产生更加公允的回应。在多种LLM（GPT-3.5、Llama3和Llama2-Alpaca）上的核心ference解析和问答任务的广泛实验表明，其有效、普适和鲁棒性。DR.GAP 可以泛化到视觉语言模型（VLMs），实现显著的偏见降低。