摘要
大型语言模型 (LLMs) 在招聘中的使用已引发立法行动,以保护弱势群体。本文提出了一种新的框架,用于对大型语言模型 (LLMs) 在简历评分中的分层性别招聘偏差进行基准测试,揭示了严重的逆向性别招聘偏差和过度去偏差问题。我们的贡献有四个方面:第一,我们引入了一种新的结构,它以劳动力经济学、法律原则和对当前偏差基准的批评为基础:招聘偏差可以分为两种类型:水平偏差(人口统计反事实群体之间平均结果的差异)和分布偏差(人口统计反事实群体之间结果方差的差异);水平偏差可以进一步细分为统计偏差(即随非人口统计内容而变化)和基于偏好的偏差(即无论非人口统计内容如何保持一致)。第二,该框架包括严格的统计和计算招聘偏差指标,例如评分后排名 (RAS)、基于排名的影响比率、排列检验和固定效应模型。第三,我们分析了十个最先进的 LLMs 中的性别招聘偏差。十个 LLMs 中有七个在至少一个行业中显示出对男性的显著偏差。行业效应回归表明,医疗保健行业对男性的偏差最大。此外,我们发现,对于十个 LLMs 中的八个,偏差表现与简历内容保持不变。这表明,本文中测量的偏差表现可能适用于其他具有不同简历质量的简历数据集。第四,我们提供了一个用户友好的演示和简历数据集,以支持该框架的采用和实际应用,该框架可以推广到其他社会特征和任务。