摘要
arXiv:2407.08441v2 公布类型: 替换-交叉
摘要:大规模语言模型(LLMs)已经彻底改变了人工智能领域,展示了非凡的计算能力和语言能力。然而,这些模型在本质上容易受到其训练数据带来的各种偏见的影响。这些偏见包括选择偏见、语言偏见和确认偏见,以及与性别、种族、性取向、宗教、社会经济地位、残疾和年龄相关的常见刻板印象。本研究探讨了这些偏见在最新LLMs回应中的存在情况,分析了它们对公平性和可靠性的影响。我们还调查了已知的提示工程技术如何被利用以有效揭示LLMs隐藏的偏见,并测试了它们在对抗精心设计的偏见引发提示时的稳健性。使用不同规模的最广泛使用的LLMs进行了广泛的实验,证实尽管LLMs具有先进的能力和复杂的对齐过程,它们仍然可以被操纵以产生有偏见或不适当的回答。我们的发现强调了加强缓解技术的重要性,以解决这些安全问题,朝着一个更可持续和包容的人工智能方向发展。