LLM2D
停止!使用敏感性测试对大型语言模型进行基准测试以评估其攻击性进展
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13843v1

摘要

arXiv:2409.13843v1 公告类型: 交叉 摘要: 减轻大型语言模型(LLMs)中的显性和隐性偏见已成为自然语言处理领域的一个关键焦点。然而,许多当前的方法在评估场景时是孤立的,没有考虑到更广泛的背景或每个情境中潜在偏见的范围。为了解决这个问题,我们引入了针对冒犯性进展的敏感性测试(STOP)数据集,该数据集包含450个冒犯性进展,包含2700个独特句子,这些句子的严重程度逐渐升级,从不太明显到更明显地冒犯。涵盖了9个主要群体和46个子群体的广泛范围,STOP确保了包容性和全面覆盖。我们评估了几个领先的闭源和开源模型,包括GPT-4、Mixtral和Llama 3。我们的研究结果表明,即使是表现最好的模型在检测偏见方面也存在不一致性,成功率从19.3%到69.8%不等。我们还展示了如何使模型与STOP上的人类判断保持一致,从而将敏感任务(如BBQ、StereoSet和CrowS-Pairs)的模型回答率提高多达191%,同时保持或甚至提高性能。STOP提供了一个评估LLMs中偏见复杂性的新框架,这将有助于制定更有效的偏见缓解策略,并促进更公平的语言模型的创建。