摘要
我们对 ChatGPT 的四个版本进行了受控实验偏差审计,要求它们推荐新员工薪资谈判的开价。我们向每个版本提交了 98,800 个提示,系统地改变了员工的性别、大学和专业,并测试了谈判双方的声音:员工和雇主。我们发现,ChatGPT 作为一种多模型平台,不够健壮和一致,无法信赖于此类任务。我们观察到,在所有四个模型中,当改变性别时,薪资报价存在统计学上的显著差异,尽管差距小于其他测试属性。最大的差距在于不同的模型版本以及员工和雇主之间的声音提示。我们还观察到,当改变大学和专业时,存在很大的差距,但许多偏差在不同的模型版本中并不一致。我们测试了虚构的和欺诈性的大学,发现跨案例和模型版本的结果差异很大。我们对人工智能/机器学习公平性文献做出了更广泛的贡献。我们的场景和实验设计在关键方面不同于主流人工智能/机器学习审计工作。偏差审计通常测试受保护群体(如性别)的歧视,而我们将其与测试大学和专业等非受保护群体进行对比。要求谈判建议包括一个人在谈判中应该有多强势,相对于已知的经验性薪资分布和规模,这是一个深度语境化和个性化的任务,没有客观的真实情况来验证。这些结果对我们测试的特定模型版本和 ChatGPT 作为持续开发的多模型平台提出了担忧。我们的认识论不允许我们明确地证明这些模型在我们测试的属性上是普遍有偏差还是无偏差,但我们的研究对利益相关者进一步调查提出了担忧。