LLM2D
评估大型语言模型应用场景中偏见和公平性的可操作框架
An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases
作者: Dylan Bouchard
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2407.10853v3

摘要

arXiv:2407.10853v3 公布类型: replace-cross 摘要:大规模语言模型(LLMs)可能会以多种方式表现出偏差。这些偏差可以为受到保护属性内某些组不公平结果的创造或加剧,包括但不仅限于性别、种族、性取向或年龄。在本文中,我们提出了一种决策框架,使从业者能够确定特定LLM应用场景中应使用哪些偏见和公平性指标。为了建立该框架,我们为LLMs定义了偏见和公平性风险,将这些风险映射到LLM应用场景分类,然后定义了各种指标来评估每种风险类型。我们不仅关注模型本身,还通过在LLM应用场景层面上定义评估,考虑到特定于提示和特定于模型的风险,LLM应用场景由一个模型和一组提示定义。由于所有评估指标都是仅使用LLM输出计算得出的,因此我们提出的框架对于从业者来说非常实用且易于操作。为了简化实施,框架中包括的所有评估指标在本文的配套Python工具包LangFair中提供。最后,我们的实验表明,应用场景之间的偏见和公平性存在巨大差异,强调了应用场景层面评估的重要性。