LLM2D

摘要

arXiv:2410.16520v3 宣布类型: 替换交叉摘要：随着我们对自闭症和残疾主义的理解不断加深，我们对针对自闭症人士的残疾主义语言的理解也在不断加深。这种语言在自然语言处理（NLP）研究中构成了一个重大挑战，因其微妙性和依存于上下文的特性。然而，检测反自闭症的残疾主义语言仍然被广泛忽视，现有的NLP工具往往难以捕捉其细微的表达。我们提出了AUTALIC，这是第一个专门用于检测情境中的反自闭症残疾主义语言的基准数据集，填补了该领域的空白。该数据集由2,400条与自闭症相关的句子组成，这些句子是从Reddit收集的，并附有上下文信息，且由神经多样性背景的训练专家进行标注。我们全面的评估显示，当前的语言模型，包括最先进的大规模预训练语言模型（LLMs），在可靠地识别反自闭症残疾主义和与人类判断对齐方面存在困难，凸显了它们在这一领域的能力限制。我们公开发布了AUTALIC以及单独的标注信息，这些标注信息对研究残疾主义、神经多样性以及研究注释任务中的分歧的研究人员来说是一个宝贵资源。该数据集为开发更包容和情境感知的NLP系统迈出了关键一步，这些系统更好地反映了多元化的视角。