LLM2D

摘要

arXiv:2504.01420v1 宣布类型: cross 摘要：在AI驱动招聘正在改变招聘实践的时代，公平性和偏差问题变得越来越重要。为了探索这些问题，我们引入了一个基准FAIRE（公平性评估在简历评估中），以测试大型语言模型（LLMs）在评估来自不同行业的简历时是否存在种族和性别偏差。我们使用两种方法——直接评分和排名——来衡量当简历稍作修改以反映不同的种族或性别身份时，模型性能的变化情况。我们的研究发现显示，尽管每种模型都表现出一定程度的偏差，但这种偏差的量级和方向差异巨大。这个基准提供了一个明确的方法来检验这些差异，并提供了有关基于AI的招聘工具公平性的宝贵见解。它强调了减少AI驱动招聘中的偏差的紧迫需求。我们的基准代码和数据集已开源在我们的仓库中：https://github.com/athenawen/FAIRE-Fairness-Assessment-In-Resume-Evaluation.git。