LLM2D

摘要

arXiv:2502.11559v1 Announce Type: cross 摘要：在大量文本语料上预训练大型语言模型（LLMs）增强了自然语言处理能力，但同时也存在一定风险，即可能嵌入社会偏见，特别是性别偏见。虽然参数修改方法如微调可以减轻偏见，但这种方法资源密集，不适合闭源模型，并且缺乏对 evolving 社会规范的适应性。基于指令的方法具有灵活性，但往往会以牺牲任务性能为代价。为解决这些局限性，我们提出了一种自动且模型独立的框架 $\textit{FaIRMaker}$，该框架采用一种自动搜索和优化 paradigm，自适应地生成公平词，这些公平词作为指令集成到输入查询中，以减少性别偏见并提高响应质量。广泛的实验结果表明，$\textit{FaIRMaker}$ 自动搜索并动态优化公平词，有效地减轻了性别偏见，同时保持了任务完整性，并确保了与基于 API 和开源 LLMs 的兼容性。