LLM2D
RideKE:利用低资源、用户生成的Twitter内容对肯尼亚双语切换数据集进行情绪和情感检测
RideKE: Leveraging Low-Resource, User-Generated Twitter Content for Sentiment and Emotion Detection in Kenyan Code-Switched Dataset
作者: Naome A. Etori, Maria L. Gini
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06180v1

摘要

arXiv:2502.06180v1 宣布类型: cross 摘要:社交媒体已成为个人表达意见和分享经验的重要开放访问平台。然而,由于推特上的低资源语言数据稀少且质量较差,且语言使用存在广泛的变化,如俚语和代码切换,因此利用这些数据具有挑战性。识别这些语言的推文可能具有挑战性,因为推特主要支持高资源语言。我们分析了肯尼亚的代码切换数据,并使用监督学习和半监督方法评估了四种最先进的(SOTA)基于变换器的预训练模型在情感和情绪分类任务中的表现。我们详细说明了数据收集和注释的方法,以及数据整理阶段遇到的挑战。我们的结果显示,XLM-R的性能最佳;对于情感分析,XLM-R监督模型的准确率最高(69.2%),F1分数最高(66.1%),XLM-R半监督模型的准确率为67.2%,F1分为64.1%。对于情绪分析,DistilBERT监督模型的准确率最高(59.8%),F1分数最高(31%),mBERT半监督模型的准确率为59%,F1分为26.5%。AfriBERTa模型展示出最低的准确率和F1分数。所有模型倾向于预测中性情感,而Afri-BERT在情感预测方面表现出最高的偏差和对同理心情感的独特敏感性。https://github.com/NEtori21/Ride_hailing