LLM2D
基于敏感性测试对 Offensive 进程的评估大型语言模型
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions
作者: Robert Morabito, Sangmitra Madhusudan, Tyler McDonald, Ali Emami
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2409.13843v2

摘要

arXiv:2409.13843v2 提交类型: replace-cross 摘要: 减轻大型语言模型(LLMs)中的显性偏差和隐性偏差已成为自然语言处理领域的关键重点。然而,许多现有方法在评估场景时是孤立进行的,而不考虑更广泛的上下文或每个情境中存在的各种潜在偏差。为了解决这一问题,我们引入了《敏感性测试在冒犯性进展上的数据集》(Sensitivity Testing on Offensive Progressions,简称STOP),其中包括450个冒犯性进展,共包含2,700个不同程度的独特句子,这些句子从较不明确冒犯到更明确冒犯逐步升级。STOP涵盖了9个族群和46个次族群的广泛范围,确保了包容性和全面覆盖。我们评估了几个领先的闭源和开源模型,包括GPT-4、Mixtral和Llama 3。我们的发现表明,即使是表现最好的模型在检测偏差方面也存在不一致性,成功率为19.3%至69.8%之间。我们还展示了如何通过将模型与STOP上的人类判断对齐,可以在敏感任务,如BBQ、StereoSet和CrowS-Pairs上将模型答案率提高高达191%,同时保持或甚至改进性能。STOP提供了一个评估LLMs中复杂偏差性质的新框架,这将有助于更有效的偏见缓解策略,并促进更公平的语言模型的创建。