LLM2D
自动搜索与精炼:一种用于大型语言模型性别偏见缓解的自动化框架
Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models
作者: Yue Xu, Chengyan Fu, Li Xiong, Sibei Yang, Wenjie Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11559v1

摘要

arXiv:2502.11559v1 Announce Type: cross 摘要:在大量文本语料上预训练大型语言模型(LLMs)增强了自然语言处理能力,但同时也存在一定风险,即可能嵌入社会偏见,特别是性别偏见。虽然参数修改方法如微调可以减轻偏见,但这种方法资源密集,不适合闭源模型,并且缺乏对 evolving 社会规范的适应性。基于指令的方法具有灵活性,但往往会以牺牲任务性能为代价。为解决这些局限性,我们提出了一种自动且模型独立的框架 $\textit{FaIRMaker}$,该框架采用一种自动搜索和优化 paradigm,自适应地生成公平词,这些公平词作为指令集成到输入查询中,以减少性别偏见并提高响应质量。广泛的实验结果表明,$\textit{FaIRMaker}$ 自动搜索并动态优化公平词,有效地减轻了性别偏见,同时保持了任务完整性,并确保了与基于 API 和开源 LLMs 的兼容性。