LLM2D

摘要

arXiv:2407.08441v2 公布类型: 替换-交叉摘要：大规模语言模型（LLMs）已经彻底改变了人工智能领域，展示了非凡的计算能力和语言能力。然而，这些模型在本质上容易受到其训练数据带来的各种偏见的影响。这些偏见包括选择偏见、语言偏见和确认偏见，以及与性别、种族、性取向、宗教、社会经济地位、残疾和年龄相关的常见刻板印象。本研究探讨了这些偏见在最新LLMs回应中的存在情况，分析了它们对公平性和可靠性的影响。我们还调查了已知的提示工程技术如何被利用以有效揭示LLMs隐藏的偏见，并测试了它们在对抗精心设计的偏见引发提示时的稳健性。使用不同规模的最广泛使用的LLMs进行了广泛的实验，证实尽管LLMs具有先进的能力和复杂的对齐过程，它们仍然可以被操纵以产生有偏见或不适当的回答。我们的发现强调了加强缓解技术的重要性，以解决这些安全问题，朝着一个更可持续和包容的人工智能方向发展。