摘要
arXiv:2502.06180v1 宣布类型: cross
摘要:社交媒体已成为个人表达意见和分享经验的重要开放访问平台。然而,由于推特上的低资源语言数据稀少且质量较差,且语言使用存在广泛的变化,如俚语和代码切换,因此利用这些数据具有挑战性。识别这些语言的推文可能具有挑战性,因为推特主要支持高资源语言。我们分析了肯尼亚的代码切换数据,并使用监督学习和半监督方法评估了四种最先进的(SOTA)基于变换器的预训练模型在情感和情绪分类任务中的表现。我们详细说明了数据收集和注释的方法,以及数据整理阶段遇到的挑战。我们的结果显示,XLM-R的性能最佳;对于情感分析,XLM-R监督模型的准确率最高(69.2%),F1分数最高(66.1%),XLM-R半监督模型的准确率为67.2%,F1分为64.1%。对于情绪分析,DistilBERT监督模型的准确率最高(59.8%),F1分数最高(31%),mBERT半监督模型的准确率为59%,F1分为26.5%。AfriBERTa模型展示出最低的准确率和F1分数。所有模型倾向于预测中性情感,而Afri-BERT在情感预测方面表现出最高的偏差和对同理心情感的独特敏感性。https://github.com/NEtori21/Ride_hailing