摘要
arXiv:2504.21026v1 Announce Type: cross
摘要:随着社交媒体上的多语言用户数量不断增加,检测代码混用文本中的虐待语言变得越来越具有挑战性。代码混用通信,其中用户无缝地在英语和其他母语之间切换,给传统虐待检测模型带来了困难,因为冒犯内容可能是情境依赖性的,或被语言融合所掩盖。虽然对于英语和印地语等高资源语言,在虐待语言检测方面已经进行了广泛的研究,但像泰卢固语和尼泊尔语等低资源语言仍然代表性不足,留下了有效的监督缺口。在这项研究中,我们介绍了一个包含2000条泰卢固语-英语及500条尼泊尔语-英语代码混用评论的新颖手动注释数据集,这些评论被分类为虐待语言和非虐待语言,并从各种社交媒体平台收集。在进行严格的预处理之后,该数据集被用于跨多个机器学习(ML)、深度学习(DL)和大型语言模型(LLMs)进行评估。我们尝试了包括逻辑回归、随机森林、支持向量机(SVM)、神经网络(NN)、LSTM、CNN以及LLMs在内的多种模型,并通过超参数调整优化了它们的性能,并使用10折交叉验证和统计显著性检验(t检验)对其进行评估。我们的研究结果提供了在代码混用环境中检测虐待语言的挑战的关键见解,并提供了计算方法的比较分析。这一研究通过在泰卢固语-英语和尼泊尔语-英语代码混用文本中建立虐待语言检测的基准,旨在推动低资源语言的自然语言处理(NLP)技术的发展。这个数据集和洞察可以为多语言社交媒体环境中的更稳健的监督策略开发提供帮助。