LLM2D
毒性分类器和大型语言模型如何应对歧视残疾人行为
How Toxicity Classifiers and Large Language Models Respond to Ableism
作者: Mahika Phutane, Ananya Seelam, Aditya Vashistha
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03448v1

摘要

残疾人(PwD)经常在网上遭遇歧视性仇恨和微攻击。虽然在线平台使用机器学习模型来调节在线伤害,但关于这些模型如何与歧视残疾人现象相互作用的研究很少。本文收集了 100 条针对 PwD 的社交媒体评论数据集,并招募了 160 名参与者来评估这些评论的毒性和歧视性程度,并解释原因。然后,我们提示最先进的毒性分类器(TC)和大型语言模型(LLM)对这些评论进行评估并解释其危害性。我们的分析表明,TC 和 LLM 对毒性的评级明显低于 PwD,但 LLM 对歧视残疾人现象的评级总体上与 PwD 相当。然而,LLM 对歧视残疾人现象的解释忽略了情感上的伤害,缺乏针对性和对语境的认可,而这些是 PwD 解释的重要方面。展望未来,我们讨论了设计能够识别残疾人歧视的毒性分类器的挑战,并倡导从歧视残疾人现象检测转向歧视残疾人现象解释和说明。