LLM2D

摘要

我们对 ChatGPT 的四个版本进行了受控实验偏差审计，要求它们推荐新员工薪资谈判的开价。我们向每个版本提交了 98,800 个提示，系统地改变了员工的性别、大学和专业，并在谈判双方（员工与雇主）的声音中测试了提示。我们发现 ChatGPT 作为多模型平台不够健壮和一致，无法信任它执行此类任务。我们观察到在所有四个模型中，当改变性别时，薪资报价存在统计学上的显著差异，尽管与其他测试属性相比，差距较小。最大的差距是不同的模型版本以及员工与雇主的声音提示之间的差距。我们还观察到在改变大学和专业时存在很大的差距，但许多偏差在不同模型版本之间并不一致。我们测试了虚构和欺诈性大学，发现在不同案例和模型版本之间存在极不一致的结果。我们对 AI/ML 公平性文献做出了更广泛的贡献。我们的情景和实验设计在关键方面不同于主流 AI/ML 审计工作。偏差审计通常测试对受保护群体的歧视，例如性别，而我们将其与测试大学和专业等非受保护群体进行对比。要求谈判建议包括一个人在谈判中应该有多强势，相对于已知的经验薪资分布和尺度而言，这是一个深度上下文和个性化的任务，没有客观的真相来验证。这些结果引起了我们对测试的特定模型版本以及 ChatGPT 作为持续开发中的多模型平台的担忧。我们的认识论不允许我们明确地证明这些模型在测试的属性上是普遍有偏差还是无偏差，但我们的研究引起了利益相关者进一步调查的关注。