摘要
arXiv:2409.14583v3 公告类型:替换
摘要:大型语言模型(LLMs)的最新进展令人瞩目,但由于各种限制,广泛的商业采用仍然有限。本文探讨了LLMs中的偏差问题——这一问题对它们的易用性、可靠性和公平性产生了影响。研究人员正在开发减轻偏差的策略,包括去偏差层、专门的参考数据集(如Winogender和Winobias)以及带有人类反馈的强化学习(RLHF)。这些技术已被集成到最新的LLM中。我们的研究评估了四款2024年发布的领先LLM中性别偏差的职业场景,并评估了性别、年龄和种族偏差的犯罪场景:Gemini 1.5 Pro、Llama 3 70B、Claude 3 Opus和GPT-4o中的偏差。研究结果发现,LLMs在各种职业场景中经常描绘女性角色的频率高于男性角色,偏差达到美国劳工统计局数据的37%。在犯罪场景中,性别偏差为54%,种族偏差为28%,年龄偏差为17%。我们观察到,减少性别和种族偏差的努力往往可能导致某一小类对象的过度代表性,这可能加剧问题。这些结果凸显了现有偏差缓解技术的局限性,并强调需要更有效的方法。