LLM2D

摘要

arXiv:2410.07991v5 通知类型: replace-cross 摘要：在线平台的兴起加剧了仇恨言论的传播，迫切需要可扩展且有效的检测方法。然而，仇恨言论检测系统的准确性高度依赖于人工标注的数据，而人工标注数据本身极易受到偏见的影响。尽管先前的研究探讨了这一问题，但注释者特性和目标特性的相互作用仍未被探索。我们通过利用一个包含丰富的人口统计信息的广泛数据集，同时涉及注释者和目标，揭示了人类偏见在与目标属性相关时的表现方式。我们的分析揭示了普遍存在的偏见，并基于其强度和普遍存在性进行量化描述和特征化，揭示了显著差异。此外，我们将人类偏见与基于人物的LLM偏见进行比较。我们的研究结果表明，虽然基于人物的LLM确实表现出偏见，但这些偏见与人类注释者的偏见存在显著差异。 Overall, 我们的工作提供了关于仇恨言论注释中人类偏见的新颖且详细的成果，并为AI驱动的仇恨言论检测系统的设计提供了新的见解。