摘要
arXiv:2504.03716v1 交叉型公告
摘要:大语言模型(LLMs)正在变得无处不在,甚至在高风险场景中也承诺实现自动化。然而,现有的评估方法往往不尽如人意——基准测试达到饱和,准确性指标过于简单,而且许多本质上存在歧义的问题缺乏明确的地面真实值。鉴于这些限制,评估公平性变得复杂。为了解决这个问题,我们重新定义了公平性评估,利用选举理论中的Borda得分方法,将其作为一个复杂但可解释的公平性衡量指标。以器官分配为例,我们引入了两个任务:(1) 选择一个和 (2) 对所有进行排名。在“选择一个”任务中,LLMs 选择一个肾的单一候选者,并我们使用比例平等来评估不同人口统计数据的公平性。在“对所有进行排名”任务中,LLMs 对所有候选者进行排名,反映了实际的分配过程。由于传统的公平性指标不考虑排名,我们提出了一种将Borda得分应用于捕捉偏差的新型应用。我们的研究结果突显了基于选举的指标在为LLM公平性提供更丰富、更复杂的评估方面的潜力。