LLM2D

摘要

arXiv:2409.14583v1 公告类型: 新发布摘要: 近期大型语言模型(LLMs)的进展显著,但由于各种限制,广泛的企业采用仍有限。本文探讨了LLMs中的偏见问题,这是影响其可用性、可靠性和公平性的关键问题。研究人员正在开发缓解偏见的策略,包括去偏见层、专门的参考数据集如Winogender和Winobias,以及基于人类反馈的强化学习(RLHF)。这些技术已集成到最新的LLMs中。我们的研究评估了2024年发布的四个领先LLMs(Gemini 1.5 Pro、Llama 3 70B、Claude 3 Opus和GPT-4o)在职业场景中的性别偏见以及犯罪场景中的性别、年龄和种族偏见。研究发现,LLMs在各种职业中经常更频繁地描绘女性角色,与美国劳工统计局(BLS)数据相比偏差达37%。在犯罪场景中,与美国联邦调查局(FBI)数据的偏差分别为性别54%、种族28%和年龄17%。我们观察到,减少性别和种族偏见的努力往往导致可能过度偏向某一子类的结果,可能加剧问题。这些结果突显了当前偏见缓解技术的局限性,并强调了需要更有效的方法。