LLM2D

摘要

arXiv:2407.10853v3 公布类型: replace-cross 摘要：大规模语言模型（LLMs）可能会以多种方式表现出偏差。这些偏差可以为受到保护属性内某些组不公平结果的创造或加剧，包括但不仅限于性别、种族、性取向或年龄。在本文中，我们提出了一种决策框架，使从业者能够确定特定LLM应用场景中应使用哪些偏见和公平性指标。为了建立该框架，我们为LLMs定义了偏见和公平性风险，将这些风险映射到LLM应用场景分类，然后定义了各种指标来评估每种风险类型。我们不仅关注模型本身，还通过在LLM应用场景层面上定义评估，考虑到特定于提示和特定于模型的风险，LLM应用场景由一个模型和一组提示定义。由于所有评估指标都是仅使用LLM输出计算得出的，因此我们提出的框架对于从业者来说非常实用且易于操作。为了简化实施，框架中包括的所有评估指标在本文的配套Python工具包LangFair中提供。最后，我们的实验表明，应用场景之间的偏见和公平性存在巨大差异，强调了应用场景层面评估的重要性。