LLM2D

摘要

arXiv:2504.01951v1 宣告类型: 新摘要: 随着大型语言模型在各个领域的广泛应用，评估其惊人的性能背后所依赖的训练数据中的统计相关性所隐藏的微妙且可能令人担忧的偏差变得至关重要。性别偏差在大型语言模型中已从职业、爱好和通常与特定性别相关的感情等多个方面广泛研究。在这项研究中，我们引入了一个新颖的角度。我们研究大型语言模型是否仅凭个人的在线购物历史就能预测其性别，以及这些预测是否受到性别偏见和刻板印象的影响。使用来自美国用户的在线购买历史数据集，我们评估了六种大型语言模型对性别的分类能力，然后分析了它们的推理过程和产品-性别共现模式。结果显示，虽然模型可以以中等准确性推断性别，但他们的决策通常是基于产品类别与性别之间的刻板印象关联。此外，明确指示避免偏见可以降低模型预测的确定性，但并不能消除刻板印象模式。我们的发现突显了大型语言模型中性别偏见的持久性，并强调了需要有效的偏见缓解策略。