摘要
arXiv:2412.08795v2 宣告类型: 替换-交叉
摘要:多文档摘要中的公平性衡量系统能否公平地代表具有不同社会属性值的文档信息。多文档摘要中的公平性至关重要,因为公平的摘要能够为读者提供全面的观点。此前的研究集中于使用基于统计平等性的代表性比例来量化摘要级别的公平性。然而,代表性比例没有考虑输入文档中的冗余,并忽略了语料库级别的不公平性。在本文中,我们提出了一种新的摘要级别公平性度量 Equal Coverage,它是基于具有不同社会属性值的文档的覆盖面,并考虑了文档内部的冗余。为了检测语料库级别的不公平性,我们提出了一种新的语料库级别度量 Coverage Parity。我们的手动评估显示,我们的度量与我们定义的公平性更为一致。使用我们的度量,我们评估了十三种不同的大语言模型的公平性。我们发现,Claude3-sonnet 在所有评估的大语言模型中是最公平的。我们还发现,几乎所有的大语言模型都过度代表了不同社会属性值。代码可在 https://github.com/leehaoyuan/coverage_fairness 获取。