摘要
arXiv:2504.01420v1 宣布类型: cross
摘要:在AI驱动招聘正在改变招聘实践的时代,公平性和偏差问题变得越来越重要。为了探索这些问题,我们引入了一个基准FAIRE(公平性评估在简历评估中),以测试大型语言模型(LLMs)在评估来自不同行业的简历时是否存在种族和性别偏差。我们使用两种方法——直接评分和排名——来衡量当简历稍作修改以反映不同的种族或性别身份时,模型性能的变化情况。我们的研究发现显示,尽管每种模型都表现出一定程度的偏差,但这种偏差的量级和方向差异巨大。这个基准提供了一个明确的方法来检验这些差异,并提供了有关基于AI的招聘工具公平性的宝贵见解。它强调了减少AI驱动招聘中的偏差的紧迫需求。我们的基准代码和数据集已开源在我们的仓库中:https://github.com/athenawen/FAIRE-Fairness-Assessment-In-Resume-Evaluation.git。