LLM2D
合成数据 vs. 人工标注数据:LLM生成的标签和数据在识别网络欺凌中的作用
Synthetic vs. Gold: The Role of LLM-Generated Labels and Data in Cyberbullying Detection
作者: Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Brian Davis
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2502.15860v2

摘要

arXiv:2502.15860v2 Announce Type: replace-cross 摘要:网络霸凌(CB)对儿童构成了紧迫的威胁,凸显了迫切需要 robust 的检测系统以确保在线安全。然而,开发此类系统的进展受到大型、特定于专门任务和目标年龄组的标记数据集稀缺性的阻碍。创建这些数据集在很大程度上依赖于人工注释,不仅耗费资源,还因标注人员接触到有害内容而引发伦理和法律方面的重大关切,尤其是在从脆弱群体(如儿童)中获取此类数据时。本文通过利用大型语言模型(LLMs)生成合成数据和标签,来应对这些挑战。我们的实验表明,合成数据使基于 BERT 的 CB 分类器能够达到与在全真数据集上训练的分类器相近的性能(准确率为 75.8% 对 81.5%)。此外,LLMs 还能有效地为真实但未标记的数据进行标注,从而使基于 BERT 的分类器达到相当的性能水平(准确率为 79.1% 对 81.5%)。这些结果突显了 LLMs 作为生成 CB 检测所需数据的可扩展、伦理和经济有效的解决方案的潜力。