摘要
近年来,随着大型语言模型 (LLM) 技术的成熟和高质量编程代码数据集的出现,研究人员对自动解决程序合成挑战越来越有信心。然而,由于大多数 LLM 的训练样本未经筛选,LLM 的性能不可避免地可能与现实场景不符,导致存在社会偏见。为了评估和量化代码 LLM 中的性别偏见,我们提出了一个名为 CodeGenBias(代码生成中的性别偏见)的数据集,并基于相关职业的实际性别分布,提出了一个名为 FB-Score(事实偏见得分)的评估指标。借助 CodeGenBias 和 FB-Score,我们评估和分析了八种主流代码 LLM 中的性别偏见。先前的工作表明,在知识编辑方面表现良好的模型编辑方法有可能减轻 LLM 中的社会偏见。因此,我们开发了一种名为 MG-Editing(多粒度模型编辑)的模型编辑方法,它包括定位和编辑阶段。我们的模型编辑方法 MG-Editing 可以应用于模型参数粒度的五个不同级别:全参数级别、层级、模块级、行级和神经元级。大量实验不仅证明了我们的 MG-Editing 可以有效地减轻代码 LLM 中的性别偏见,同时保持其一般的代码生成能力,而且还展示了其出色的泛化能力。同时,实验结果表明,考虑到模型的性别偏见及其一般的代码生成能力,MG-Editing 在应用于行级和神经元级粒度时最为有效。