摘要
随着大型语言模型(LLM)日益成为招聘流程中不可或缺的一部分,人们对人工智能造成的偏见也越来越担忧。本研究考察了Claude 3.5 Sonnet、GPT-4o、Gemini 1.5和Llama 3.1 405B生成的候选人面试报告中的偏见,重点关注性别、种族和年龄等特征。我们评估了基于LLM的匿名化方法在减少这些偏见方面的有效性。研究结果表明,虽然匿名化可以减少某些偏见,特别是性别偏见,但其有效程度因模型和偏见类型而异。值得注意的是,Llama 3.1 405B表现出最低的整体偏见。此外,我们比较匿名化数据和非匿名化数据的方法,揭示了一种评估LLM固有偏见的新方法,其应用范围超越招聘领域。本研究强调了仔细选择LLM的重要性,并提出了最大限度地减少人工智能应用中偏见、促进公平与包容性的最佳实践。