LLM2D
通过模型编辑缓解代码大型语言模型中的性别偏见
Mitigating Gender Bias in Code Large Language Models via Model Editing
作者: Zhanyue Qin, Haochuan Wang, Zecheng Wang, Deyuan Liu, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Dianbo Sui
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07820v1

摘要

近年来,随着大型语言模型 (LLM) 技术的成熟和高质量编程代码数据集的出现,研究人员对自动解决程序合成挑战越来越有信心。然而,由于大多数 LLM 的训练样本未经筛选,LLM 的性能不可避免地可能与现实场景不符,导致存在社会偏见。为了评估和量化代码 LLM 中的性别偏见,我们提出了一个名为 CodeGenBias(代码生成中的性别偏见)的数据集,并基于相关职业的实际性别分布,提出了一个名为 FB-Score(事实偏见得分)的评估指标。借助 CodeGenBias 和 FB-Score,我们评估和分析了八种主流代码 LLM 中的性别偏见。先前的工作表明,在知识编辑方面表现良好的模型编辑方法有可能减轻 LLM 中的社会偏见。因此,我们开发了一种名为 MG-Editing(多粒度模型编辑)的模型编辑方法,它包括定位和编辑阶段。我们的模型编辑方法 MG-Editing 可以应用于模型参数粒度的五个不同级别:全参数级别、层级、模块级、行级和神经元级。大量实验不仅证明了我们的 MG-Editing 可以有效地减轻代码 LLM 中的性别偏见,同时保持其一般的代码生成能力,而且还展示了其出色的泛化能力。同时,实验结果表明,考虑到模型的性别偏见及其一般的代码生成能力,MG-Editing 在应用于行级和神经元级粒度时最为有效。