LLM2D

摘要

arXiv:2409.13843v2 提交类型: replace-cross 摘要: 减轻大型语言模型（LLMs）中的显性偏差和隐性偏差已成为自然语言处理领域的关键重点。然而，许多现有方法在评估场景时是孤立进行的，而不考虑更广泛的上下文或每个情境中存在的各种潜在偏差。为了解决这一问题，我们引入了《敏感性测试在冒犯性进展上的数据集》（Sensitivity Testing on Offensive Progressions，简称STOP），其中包括450个冒犯性进展，共包含2,700个不同程度的独特句子，这些句子从较不明确冒犯到更明确冒犯逐步升级。STOP涵盖了9个族群和46个次族群的广泛范围，确保了包容性和全面覆盖。我们评估了几个领先的闭源和开源模型，包括GPT-4、Mixtral和Llama 3。我们的发现表明，即使是表现最好的模型在检测偏差方面也存在不一致性，成功率为19.3%至69.8%之间。我们还展示了如何通过将模型与STOP上的人类判断对齐，可以在敏感任务，如BBQ、StereoSet和CrowS-Pairs上将模型答案率提高高达191%，同时保持或甚至改进性能。STOP提供了一个评估LLMs中复杂偏差性质的新框架，这将有助于更有效的偏见缓解策略，并促进更公平的语言模型的创建。