LLM2D

摘要

arXiv:2504.08609v1 交叉类型公告摘要：在线仇恨言论的传播可能会对个人、在线社区乃至整个社会产生严重的负面影响。这种现象以及大量的仇恨在线内容促使内容审核从业者（如内容审核或执法部门）和研究者对自动分类仇恨言论的机器学习模型产生了兴趣。尽管大多数科学研究将仇恨言论分类视为二元任务，但实践往往需要对仇恨言论进行细分，例如按目标、严重程度或合法性，这些细分在个别内容上可能会重叠。因此，研究人员创建了数据集和机器学习模型，将仇恨言论分类在文本数据中视为多标签问题。本文呈献了对该新兴研究领域的首个系统且全面的英文文献综述（N=46）。我们提供了一份简明的多标签分类模型训练适用的28个数据集概述，揭示了在标签集、规模、元概念、标注过程和注释者间一致性方面存在显著差异。我们对24篇提出合适的分类模型的出版物的分析进一步证明了评估的一致性问题，并偏好基于双向编码表示变换器（BERT）和循环神经网络（RNN）的架构。我们识别出了训练数据不平衡、对众包平台的依赖、小规模稀疏数据集以及方法论对齐缺失等关键开放问题，并提出了十个研究建议。