LLM2D

摘要

残疾人（PwD）经常在网上遭遇歧视性仇恨和微攻击。虽然在线平台使用机器学习模型来调节在线伤害，但关于这些模型如何与歧视残疾人现象相互作用的研究很少。本文收集了 100 条针对 PwD 的社交媒体评论数据集，并招募了 160 名参与者来评估这些评论的毒性和歧视性程度，并解释原因。然后，我们提示最先进的毒性分类器（TC）和大型语言模型（LLM）对这些评论进行评估并解释其危害性。我们的分析表明，TC 和 LLM 对毒性的评级明显低于 PwD，但 LLM 对歧视残疾人现象的评级总体上与 PwD 相当。然而，LLM 对歧视残疾人现象的解释忽略了情感上的伤害，缺乏针对性和对语境的认可，而这些是 PwD 解释的重要方面。展望未来，我们讨论了设计能够识别残疾人歧视的毒性分类器的挑战，并倡导从歧视残疾人现象检测转向歧视残疾人现象解释和说明。