LLM2D

摘要

arXiv:2410.03448v2 宣称类型: 替换-交叉摘要：残疾人（PwD）经常在网上遇到的能力歧视仇恨言论和细微的冒犯。这些空间通常由机器学习模型进行管理，但人们对AI模型识别能力歧视言论的效果以及它们的判断与残疾人之间的契合程度知之甚少。为了研究这一问题，我们编制了一个开创性的数据集，包含200条针对残疾人的社交媒体评论，并促使最先进的AI模型（即，毒性分类器、语言模型）对每个评论进行毒性评分和能力歧视评分，并解释其理由。然后，我们招募了190名参与者以相同的方式对这些评论进行评级和解释，并评估语言模型的解释。我们的混合方法分析揭示了一个主要的断层：AI低估了与残疾人评级相比的毒性程度，而其能力歧视评估则是间歇性的且变化不定。尽管语言模型识别了一些偏见，但其解释存在缺陷——缺乏细微差别，做出错误假设，并且看起来过于批判而不是教育性的。未来，我们将讨论设计针对能力歧视的管理系统的挑战和机遇，并提倡在人工智能开发中包含交叉残疾视角。