LLM2D

摘要

arXiv:2504.03716v1 交叉型公告摘要：大语言模型（LLMs）正在变得无处不在，甚至在高风险场景中也承诺实现自动化。然而，现有的评估方法往往不尽如人意——基准测试达到饱和，准确性指标过于简单，而且许多本质上存在歧义的问题缺乏明确的地面真实值。鉴于这些限制，评估公平性变得复杂。为了解决这个问题，我们重新定义了公平性评估，利用选举理论中的Borda得分方法，将其作为一个复杂但可解释的公平性衡量指标。以器官分配为例，我们引入了两个任务：(1) 选择一个和 (2) 对所有进行排名。在“选择一个”任务中，LLMs 选择一个肾的单一候选者，并我们使用比例平等来评估不同人口统计数据的公平性。在“对所有进行排名”任务中，LLMs 对所有候选者进行排名，反映了实际的分配过程。由于传统的公平性指标不考虑排名，我们提出了一种将Borda得分应用于捕捉偏差的新型应用。我们的研究结果突显了基于选举的指标在为LLM公平性提供更丰富、更复杂的评估方面的潜力。