LLM2D
自然语言中微妙刻板印象识别中的推理作用
On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language
作者: Jacob-Junqi Tian, Omkar Dige, D. B. Emerson, Faiza Khan Khattak
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2308.00071v3

摘要

大型语言模型(LLM)在海量、未经整理的数据集上进行训练,这些数据集包含各种形式的偏见和语言,强化了可能被模型本身继承的有害刻板印象。因此,必须检查和解决语言模型中的偏见,将公平性融入其开发过程中,以确保这些模型不会延续社会偏见。在这项工作中,我们展示了推理在跨多个开源 LLM 的零样本刻板印象识别中的重要性。准确识别刻板印象语言是一项复杂的任务,需要对社会结构、偏见和关于特定群体存在的非公平概括有细致的理解。虽然通过模型扩展观察到精度有所提高,但推理的使用,尤其是多步推理,对于持续的性能至关重要。此外,通过对选定推理轨迹的定性分析,我们强调了推理如何不仅提高准确性,而且还提高了模型决策的可解释性。这项工作明确地将推理确立为自动刻板印象检测的关键组成部分,并且是为 LLM 建立更强大的刻板印象缓解管道的第一步。