LLM2D

摘要

我们对四个版本的ChatGPT进行了受控实验偏差审计，要求它们推荐新员工薪资谈判的开场报价。我们向每个版本提交了98800条提示，系统地改变员工的性别、大学和专业，并测试了谈判双方（员工与雇主）的提示。我们发现，作为多模型平台的ChatGPT不够强大和一致，无法胜任此类任务。我们观察到，在所有四个模型中，当改变性别时，薪资报价存在统计学上的显著差异，尽管差距小于其他测试属性。最大的差距在于不同的模型版本以及员工与雇主提出的提示之间。我们还观察到，当改变大学和专业时，存在很大的差距，但许多偏差在不同模型版本之间并不一致。我们测试了虚构和欺诈性大学，发现不同案例和模型版本的结果差异极大。我们对人工智能/机器学习公平性文献做出了更广泛的贡献。我们的场景和实验设计在关键方面与主流人工智能/机器学习审计工作有所不同。偏差审计通常测试对受保护类别（如性别）的歧视，而我们则将其与测试大学和专业等非受保护类别进行对比。寻求谈判建议包括在已知的经验薪资分布和规模方面，一个人在谈判中应该有多强势，这是一个深度情境化和个性化的任务，没有客观的真相来验证。这些结果让我们对我们测试的特定模型版本以及作为持续开发中的多模型平台的ChatGPT产生了担忧。我们的认识论不允许我们最终认定这些模型在我们测试的属性上是普遍有偏差的还是无偏差的，但我们的研究提出了利益相关者需要进一步调查的问题。