LLM2D

摘要

公平性指标用于评估各种领域中决策过程中的歧视和偏见，包括机器学习模型和现实应用中的人类决策者。这涉及计算社会群体之间概率结果的差异，例如男性和女性申请者之间的接受率。然而，传统的公平性指标没有考虑到这些过程中的不确定性，并且在两个决策者表现出相同差异时缺乏可比性。利用贝叶斯统计，我们量化了差异的不确定性，以增强歧视评估。我们通过差异及其对应的不确定性来表示每个决策者，无论是机器学习模型还是人类。我们定义了决策者的偏好，并利用暴力搜索方法根据基于这些偏好的效用函数选择最优决策者。效用分数最高的决策者可以被解释为我们对其公平性最有信心的决策者。