LLM2D

摘要

arXiv:2411.07521v3 宣告类型: replace-cross 摘要：在用户生成内容的多文档摘要中实现公平性仍然是自然语言处理（NLP）中的一个关键挑战。现有的摘要方法往往无法确保不同社会群体的公平性表示，导致输出具有偏见。在本文中，我们介绍了两种新的公平抽取式总结方法：FairExtract，一种基于聚类的方法，和FairGPT，它利用了带有公平性约束的GPT-3.5-turbo。我们使用与白人、西班牙裔和非裔美国人方言推文相关的Divsumm总结数据集评估了这些方法，并将其与相关的基准方法进行了比较。使用一组全面的摘要质量评估指标（如SUPERT、BLANC、SummaQA、BARTScore和UniEval）以及公平性指标F获得的结果表明，FairExtract和FairGPT在保持竞争力的摘要质量的同时实现了更优的公平性。此外，我们引入了综合指标（例如SUPERT+F、BLANC+F），将质量和公平性整合到一个评估框架中，提供了更细致地理解这些目标之间权衡的洞察。这项工作突显了在总结中实现公平性的关键性，并为未来公平感知NLP模型的研究设定了基准。