LLM2D

摘要

近年来，随着大型语言模型 (LLM) 技术的成熟和高质量编程代码数据集的出现，研究人员对自动解决程序合成挑战越来越有信心。然而，由于大多数 LLM 的训练样本未经筛选，LLM 的性能不可避免地可能与现实场景不符，导致存在社会偏见。为了评估和量化代码 LLM 中的性别偏见，我们提出了一个名为 CodeGenBias（代码生成中的性别偏见）的数据集，并基于相关职业的实际性别分布，提出了一个名为 FB-Score（事实偏见得分）的评估指标。借助 CodeGenBias 和 FB-Score，我们评估和分析了八种主流代码 LLM 中的性别偏见。先前的工作表明，在知识编辑方面表现良好的模型编辑方法有可能减轻 LLM 中的社会偏见。因此，我们开发了一种名为 MG-Editing（多粒度模型编辑）的模型编辑方法，它包括定位和编辑阶段。我们的模型编辑方法 MG-Editing 可以应用于模型参数粒度的五个不同级别：全参数级别、层级、模块级、行级和神经元级。大量实验不仅证明了我们的 MG-Editing 可以有效地减轻代码 LLM 中的性别偏见，同时保持其一般的代码生成能力，而且还展示了其出色的泛化能力。同时，实验结果表明，考虑到模型的性别偏见及其一般的代码生成能力，MG-Editing 在应用于行级和神经元级粒度时最为有效。